Fugu-MT 論文翻訳(概要): OLMo: Accelerating the Science of Language Models

論文の概要: OLMo: Accelerating the Science of Language Models

arxiv url: http://arxiv.org/abs/2402.00838v3
Date: Wed, 28 Feb 2024 02:26:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 18:05:13.650967
Title: OLMo: Accelerating the Science of Language Models
Title（参考訳）: OLMo: 言語モデルの科学を加速する
Authors: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Abstract要約: 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
参考スコア（独自算出の注目度）: 166.07273110740573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
Abstract（参考訳）: 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発の詳細は公開されていない。これらの詳細が、バイアスや潜在的なリスクを含むこれらのモデルを科学的に研究する上で重要であることから、研究コミュニティが強力で真にオープンなlmsにアクセスすることが不可欠であると考えています。この技術的レポートはolmoの最初のリリースについて詳述している。olmoは最先端の真にオープンな言語モデルであり、言語モデリングの科学を構築し、研究するためのフレームワークである。モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、トレーニングデータやトレーニング、評価コードを含むOLMoとフレームワーク全体をリリースしています。このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。

関連論文リスト

Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA [53.68989489261506]
Moxin 7Bは、完全にオープンソースなLarge Language Models (LLMs)として導入された。我々は,Moxin-VLM,Moxin-VLA,Moxin- Chineseの3つの変種を開発した。実験により, 各種評価において, モデルが優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-12-22T02:36:42Z)
Large language models in materials science and the need for open-source approaches [3.35950184561189]
材料発見パイプライン全体にわたる最近の大規模言語モデル(LLM)の応用についてレビューする。テキストから合成条件などの貴重な情報をLLMがどのように抽出するかを強調した。ベンチマーク結果によると、オープンソースの代替手段は、透明性、コスト効率、データプライバシを提供しながら、パフォーマンスにマッチする可能性がある。オープンソースモデルの改善が進むにつれて、科学的な発見のためにアクセスしやすく、柔軟で、コミュニティ主導のAIプラットフォームを構築するための、より広範な採用を提唱します。
論文参考訳（メタデータ） (2025-11-10T00:05:20Z)
Llama-Nemotron: Efficient Reasoning Models [105.18850667504097]
ヘテロジニアス推論モデルの開族であるLlama-Nemotronシリーズを導入する。サイズはNano(8B)、Super(49B)、Ultra(253B)の3種類。
論文参考訳（メタデータ） (2025-05-02T01:35:35Z)
Using (Not so) Large Language Models for Generating Simulation Models in a Formal DSL -- A Study on Reaction Networks [0.0]
我々は、自然言語をシミュレーションモデルに定式化するために、Large Language Modelがどのように使用されるかを評価する。我々は,微調整と評価の基礎となる合成データ生成装置を開発した。我々の微調整ミストラルモデルでは,84.5%のケースで地上の真理シミュレーションモデルを復元できる。
論文参考訳（メタデータ） (2025-03-03T15:48:01Z)
7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [42.10844666788254]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-08T02:01:46Z)
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。 OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文参考訳（メタデータ） (2024-10-12T23:42:16Z)
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (2024-09-25T17:59:51Z)
A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。 MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文参考訳（メタデータ） (2024-06-26T16:34:33Z)
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。 MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文参考訳（メタデータ） (2024-05-29T17:57:16Z)
OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文参考訳（メタデータ） (2024-04-22T23:12:03Z)
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文参考訳（メタデータ） (2024-01-31T20:29:50Z)
The Quo Vadis of the Relationship between Language and Large Language Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文参考訳（メタデータ） (2023-10-17T10:54:24Z)
Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。