論文の概要: Gemma: Open Models Based on Gemini Research and Technology
- arxiv url: http://arxiv.org/abs/2403.08295v1
- Date: Wed, 13 Mar 2024 06:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:04.308836
- Title: Gemma: Open Models Based on Gemini Research and Technology
- Title(参考訳): Gemma: Geminiリサーチと技術に基づくオープンモデル
- Authors: Gemma Team: Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya
Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivi\`ere, Mihir Sanjay
Kale, Juliette Love, Pouya Tafti, L\'eonard Hussenot, Aakanksha Chowdhery,
Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone,
Am\'elie H\'eliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth
Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo,
Cl\'ement Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya,
Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru,
Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko,
Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff
Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin
Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa
Lee, Lucas Dixon, Machel Reid, Maciej Miku{\l}a, Mateo Wirth, Michael
Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar
Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Pier Giuseppe Sessa, Rahma
Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu,
Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto
Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan,
Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong,
Tris Warkentin, Ludovic Peran, Minh Giang, Cl\'ement Farabet, Oriol Vinyals,
Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck,
Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel,
Evan Senter, Alek Andreev, Kathleen Kenealy
- Abstract要約: Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 126.00446911343747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Gemma, a family of lightweight, state-of-the art open
models built from the research and technology used to create Gemini models.
Gemma models demonstrate strong performance across academic benchmarks for
language understanding, reasoning, and safety. We release two sizes of models
(2 billion and 7 billion parameters), and provide both pretrained and
fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out
of 18 text-based tasks, and we present comprehensive evaluations of safety and
responsibility aspects of the models, alongside a detailed description of model
development. We believe the responsible release of LLMs is critical for
improving the safety of frontier models, and for enabling the next wave of LLM
innovations.
- Abstract(参考訳): Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。
Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。
LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.11705094053512542]
Llama 2-Chatの重みを微調整することで,言語モデルにおける安全性トレーニングの堅牢性について検討する。
1モデルあたり200ドル未満の予算と1GPUのみを使用して、Llama 2-Chatモデルの7B、13B、70Bの安全性トレーニングを成功裏に実施しました。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Llama 2: Open Foundation and Fine-Tuned Chat Models [65.43397761706336]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。
Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (2023-07-18T14:31:57Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。