論文の概要: OLMo: Accelerating the Science of Language Models
- arxiv url: http://arxiv.org/abs/2402.00838v1
- Date: Thu, 1 Feb 2024 18:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:01:59.378575
- Title: OLMo: Accelerating the Science of Language Models
- Title(参考訳): OLMo: 言語モデルの科学を加速する
- Authors: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney
Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson,
Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi
Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel,
Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha
Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha
Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant
Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle
Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A.
Smith, Hannaneh Hajishirzi
- Abstract要約: 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。
我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。
このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
- 参考スコア(独自算出の注目度): 166.07273110740573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have become ubiquitous in both NLP research and in
commercial product offerings. As their commercial importance has surged, the
most powerful models have become closed off, gated behind proprietary
interfaces, with important details of their training data, architectures, and
development undisclosed. Given the importance of these details in
scientifically studying these models, including their biases and potential
risks, we believe it is essential for the research community to have access to
powerful, truly open LMs. To this end, this technical report details the first
release of OLMo, a state-of-the-art, truly Open Language Model and its
framework to build and study the science of language modeling. Unlike most
prior efforts that have only released model weights and inference code, we
release OLMo and the whole framework, including training data and training and
evaluation code. We hope this release will empower and strengthen the open
research community and inspire a new wave of innovation.
- Abstract(参考訳): 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。
商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発の詳細は公開されていない。
これらの詳細が、バイアスや潜在的なリスクを含むこれらのモデルを科学的に研究する上で重要であることから、研究コミュニティが強力で真にオープンなlmsにアクセスすることが不可欠であると考えています。
この技術的レポートはolmoの最初のリリースについて詳述している。olmoは最先端の真にオープンな言語モデルであり、言語モデリングの科学を構築し、研究するためのフレームワークである。
モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、トレーニングデータやトレーニング、評価コードを含むOLMoとフレームワーク全体をリリースしています。
このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。
関連論文リスト
- OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2024-06-26T16:34:33Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。
パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (2024-04-22T23:12:03Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - The Quo Vadis of the Relationship between Language and Large Language
Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。
透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。
現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文 参考訳(メタデータ) (2023-10-17T10:54:24Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。