Fugu-MT 論文翻訳(概要): 2 OLMo 2 Furious

論文の概要: 2 OLMo 2 Furious

arxiv url: http://arxiv.org/abs/2501.00656v3
Date: Wed, 08 Oct 2025 07:50:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-09 14:21:17.908858
Title: 2 OLMo 2 Furious
Title（参考訳）: 2 OLMo 2 Furious
Authors: Team OLMo, Pete Walsh, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Shane Arora, Akshita Bhagia, Yuling Gu, Shengyi Huang, Matt Jordan, Nathan Lambert, Dustin Schwenk, Oyvind Tafjord, Taira Anderson, David Atkinson, Faeze Brahman, Christopher Clark, Pradeep Dasigi, Nouha Dziri, Allyson Ettinger, Michal Guerquin, David Heineman, Hamish Ivison, Pang Wei Koh, Jiacheng Liu, Saumya Malik, William Merrill, Lester James V. Miranda, Jacob Morrison, Tyler Murray, Crystal Nam, Jake Poznanski, Valentina Pyatkin, Aman Rangapur, Michael Schmitz, Sam Skjonsberg, David Wadden, Christopher Wilhelm, Michael Wilson, Luke Zettlemoyer, Ali Farhadi, Noah A. Smith, Hannaneh Hajishirzi,
Abstract要約: 我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。 OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
参考スコア（独自算出の注目度）: 154.15728448754854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present OLMo 2, the next generation of our fully open language models. OLMo 2 includes a family of dense autoregressive language models at 7B, 13B and 32B scales with fully released artifacts -- model weights, full training data, training code and recipes, training logs and thousands of intermediate checkpoints. In this work, we describe our modified model architecture and training recipe, focusing on techniques for achieving better training stability and improved per-token efficiency. Our updated pretraining data mixture introduces a new, specialized data mix called Dolmino Mix 1124, which significantly improves model capabilities across many downstream task benchmarks when introduced via late-stage curriculum training (i.e. specialized data during the annealing phase of pretraining). Finally, we incorporate best practices from T\"ulu 3 to develop OLMo 2-Instruct, focusing on permissive data and extending our final-stage reinforcement learning with verifiable rewards (RLVR). Our OLMo 2 base models sit at the Pareto frontier of performance to training compute, often matching or outperforming open-weight only models like Llama 3.1, Qwen 2.5, and Gemma 2 while using fewer FLOPs and with fully transparent training data, code, and recipe. Our fully open OLMo 2-Instruct models are competitive with open-weight only models of comparable size and even some proprietary models like GPT-3.5 Turbo and GPT 4o Mini.
Abstract（参考訳）: 我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。 OLMo 2には、モデルウェイト、フルトレーニングデータ、トレーニングコードとレシピ、ログのトレーニング、数千の中間チェックポイントなど、フルリリースのアーティファクトを備えた7B、13B、32Bスケールの密集した自動回帰言語モデルのファミリーが含まれている。本研究では,改良型モデルアーキテクチャとトレーニングレシピについて述べるとともに,トレーニングの安定性の向上とトーケン毎の効率の向上に焦点をあてる。私たちの更新された事前学習データミックスは、Dolmino Mix 1124と呼ばれる新しい特殊なデータミックスを導入しています。最後に,T\"ulu 3"のベストプラクティスを取り入れてOLMo 2-Instructを開発し,許容データに着目し,最終段階の強化学習を検証可能な報酬(RLVR)で拡張する。 Llama 3.1、Qwen 2.5、Gemma 2のようなオープンウェイトなモデルと、FLOPを減らし、完全に透過的なトレーニングデータ、コード、レシピを使用する場合が多いのです。完全にオープンなOLMo 2-Instructモデルは、同等の大きさのオープンウェイトモデルや、GPT-3.5 TurboやGPT 4o Miniといったプロプライエタリモデルと競合しています。

関連論文リスト

KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文参考訳（メタデータ） (2025-06-26T01:09:44Z)
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T14:30:11Z)
Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文参考訳（メタデータ） (2025-02-24T09:12:29Z)
Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-21T13:12:13Z)
Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文参考訳（メタデータ） (2024-12-13T08:22:19Z)
Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
トゥル3(Tulu 3)は、最先端の訓練後モデルである。 Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文参考訳（メタデータ） (2024-04-22T23:12:03Z)
InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。 InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。 InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文参考訳（メタデータ） (2024-03-26T00:53:24Z)
Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文参考訳（メタデータ） (2024-02-16T03:39:37Z)
FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。 MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文参考訳（メタデータ） (2023-04-08T07:34:26Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。