論文の概要: Gemma: Open Models Based on Gemini Research and Technology
- arxiv url: http://arxiv.org/abs/2403.08295v2
- Date: Wed, 10 Apr 2024 12:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:47:58.808805
- Title: Gemma: Open Models Based on Gemini Research and Technology
- Title(参考訳): Gemma: Geminiリサーチと技術に基づくオープンモデル
- Authors: Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy,
- Abstract要約: Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 128.57714343844074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
- Abstract(参考訳): Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。
Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。
LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。
関連論文リスト
- Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations [0.0]
本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。
モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。
論文 参考訳(メタデータ) (2024-04-15T13:40:08Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデルマージシナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
我々は、量子化ウォーターマーキングと命令フィンガープリントの2つの最先端IP保護技術について検討する。
実験結果から,現在のLarge Language Model (LLM) の透かし技術はマージモデルでは生き残れないが,モデルフィンガープリント技術では生き残ることが示唆された。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。
H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文 参考訳(メタデータ) (2024-01-30T08:45:08Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Llama 2: Open Foundation and Fine-Tuned Chat Models [65.43397761706336]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。
Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (2023-07-18T14:31:57Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。