論文の概要: SplitReason: Learning To Offload Reasoning
- arxiv url: http://arxiv.org/abs/2504.16379v1
- Date: Wed, 23 Apr 2025 03:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.984925
- Title: SplitReason: Learning To Offload Reasoning
- Title(参考訳): SplitReason: Reasoningをオフロードする学習
- Authors: Yash Akhauri, Anthony Fei, Chi-Chih Chang, Ahmed F. AbouElhamayed, Yueying Li, Mohamed S. Abdelfattah,
- Abstract要約: 大規模言語モデル(LLM)における推論は、単純な言語モデリングタスクよりもかなり長いトークン生成シーケンスを生成する傾向がある。
私たちはこれを、推論プロセスの最も困難な部分だけを、より大きく、より有能なモデルにオフロードすることで活用します。
このアプローチは、AIME24の推論精度を24%、28.3%改善し、それぞれ生成されたトークンの1.35%と5%をオフロードする。
- 参考スコア(独自算出の注目度): 7.016347390223799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning in large language models (LLMs) tends to produce substantially longer token generation sequences than simpler language modeling tasks. This extended generation length reflects the multi-step, compositional nature of reasoning and is often correlated with higher solution accuracy. From an efficiency perspective, longer token generation exacerbates the inherently sequential and memory-bound decoding phase of LLMs. However, not all parts of this expensive reasoning process are equally difficult to generate. We leverage this observation by offloading only the most challenging parts of the reasoning process to a larger, more capable model, while performing most of the generation with a smaller, more efficient model; furthermore, we teach the smaller model to identify these difficult segments and independently trigger offloading when needed. To enable this behavior, we annotate difficult segments across 18k reasoning traces from the OpenR1-Math-220k chain-of-thought (CoT) dataset. We then apply supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to a 1.5B-parameter reasoning model, training it to learn to offload the most challenging parts of its own reasoning process to a larger model. This approach improves AIME24 reasoning accuracy by 24% and 28.3% while offloading 1.35% and 5% of the generated tokens respectively. We open-source our SplitReason model, data, code and logs.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論は、単純な言語モデリングタスクよりもかなり長いトークン生成シーケンスを生成する傾向がある。
この拡張生成長は、推論の多段階、構成的な性質を反映し、しばしばより高い解の精度と相関する。
効率の観点からは、長いトークン生成はLLMの本質的にシーケンシャルかつメモリバウンドな復号フェーズを悪化させる。
しかし、この高価な推論プロセスの全ての部分は、同様に生成が困難であるわけではない。
我々は、この観察を、推論プロセスの最も困難な部分をより小さく、より効率的なモデルで実行しながら、より大きく、より有能なモデルにオフロードすることで活用し、さらに、より小さなモデルにこれらの難しいセグメントを特定し、必要に応じて独立してオフロードをトリガーするように教える。
この動作を可能にするために、OpenR1-Math-220k chain-of- Thought (CoT)データセットから18kの推論トレースの難しいセグメントに注釈を付ける。
次に、1.5Bパラメータ推論モデルに教師付き微調整(SFT)と強化学習微調整(RLFT)を適用し、より大規模なモデルに最も困難な部分をオフロードすることを学ぶ。
このアプローチは、AIME24の推論精度を24%、28.3%改善し、それぞれ生成されたトークンの1.35%と5%をオフロードする。
SplitReasonモデル、データ、コード、ログをオープンソースにしています。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Long Is More Important Than Difficult for Training Reasoning Models [21.369780872368143]
問題の難しさよりも推論長が、主に訓練されたモデルの性能に影響を及ぼすことを示す。
このモデルであるLong1K-32Bは,1,000のトレーニングサンプルだけで優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-03-23T13:33:59Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Self-Training Elicits Concise Reasoning in Large Language Models [23.475414693530965]
チェーン・オブ・シント(CoT)推論により、中間トークンによるさらなる計算を大規模言語モデル(LLM)が利用できるようになった。
自己生成した簡潔な推論経路を利用する簡単な微調整法を提案する。
提案手法は,GSM8KおよびMATH上の5つのモデルファミリに対して,平均精度を維持しつつ,出力トークンの30%削減を実現する。
論文 参考訳(メタデータ) (2025-02-27T14:14:50Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。