論文の概要: Training Large Language Models To Reason In Parallel With Global Forking Tokens
- arxiv url: http://arxiv.org/abs/2510.05132v2
- Date: Thu, 06 Nov 2025 07:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.675914
- Title: Training Large Language Models To Reason In Parallel With Global Forking Tokens
- Title(参考訳): 大規模言語モデルの訓練は、グローバルなフォークトークンと並列で行う
- Authors: Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan,
- Abstract要約: LLMは並列テスト時間計算のスケーリングによる性能向上を実証している。
困難な問題に対して、多種多様な正しい推論モードをトリガーするトークンをフォークすることは、通常サンプリングツリーの奥深くにある。
本研究では,ユニークな推論モードを保ち,創発的なグローバルフォークトークンを生成するSet Supervised Fine-Tuning (SSFT)を提案する。
- 参考スコア(独自算出の注目度): 12.234584843683416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although LLMs have demonstrated improved performance by scaling parallel test-time compute, doing so relies on generating reasoning paths that are both diverse and accurate. For challenging problems, the forking tokens that trigger diverse yet correct reasoning modes are typically deep in the sampling tree. Consequently, common strategies to encourage diversity, such as temperature scaling, encounter a worsened trade-off between diversity and accuracy. Motivated by this challenge, we treat parallel reasoning as a set-of-next-token-prediction problem, and incorporate a set-based global loss into Supervised Fine-Tuning (SFT) using self-supervised bipartite matching between our global forking tokens and unique reasoning traces. We observe that, while naive fine-tuning with multiple reasoning traces collapses these unique reasoning modes, our proposed method, Set Supervised Fine-Tuning (SSFT), preserves these modes and produces emergent global forking tokens. Experiments on multiple reasoning benchmarks show that our SSFT consistently outperforms SFT under both Pass@1 and Cons@k metrics.
- Abstract(参考訳): LLMは並列テスト時間計算のスケーリングによる性能向上を実証しているが、それは多様かつ正確な推論経路の生成に依存している。
困難な問題に対して、多様な正しい推論モードをトリガーするフォークトークンは、通常サンプリングツリーの奥深くにある。
その結果、温度スケーリングのような多様性を促進する共通の戦略は、多様性と正確性の間のトレードオフが悪化する。
この課題により、我々は並列推論をセット・オブ・ネクスト・トケン・プレディション問題として扱い、我々のグローバルフォークトークンとユニークな推論トレースとの間の自己教師付き二部マッチングを用いて、セットベースのグローバルロスをスーパーバイザード・ファイン・チューニング(SFT)に組み込む。
提案手法であるSet Supervised Fine-Tuning(SSFT)は,これらのモードを保存し,創発的なグローバルなフォークトークンを生成する。
複数の推論ベンチマークの実験によると、SSFTはPass@1とCons@kの両方のメトリクスでSFTを一貫して上回っている。
関連論文リスト
- Reasoning Path Divergence: A New Metric and Curation Strategy to Unlock LLM Diverse Thinking [49.8843966537226]
テスト時間スケーリング(TTS)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
提案手法は「一問題・複数解」(1PNS)の学習パラダイムであり,モデルから妥当な推論軌跡を抽出する手法である。
Reasoning Path Divergence (RPD) を用いて、問題ごとの最大多様な解集合と微調整Qwen3-4B-Baseをキュレートする。
論文 参考訳(メタデータ) (2025-10-30T04:08:53Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning [18.934789236342244]
大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:25:36Z) - Debunk the Myth of SFT Generalization [13.700645417996412]
一般的な見解では、教師付き微調整(SFT)は一般化に失敗するが、強化学習(RL)はより広範な堅牢性を実現する。
SFTが認識する障害の多くは凍結急激な人工物によるものであることを示す。
SFTがより厳密なタスクを一般化できるかどうかを問う。
論文 参考訳(メタデータ) (2025-09-30T20:01:09Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - SFT-GO: Supervised Fine-Tuning with Group Optimization for Large Language Models [11.866570688304153]
Supervised Fine-tuning (SFT) は、人間の期待や特定の下流タスクに合わせて大きな言語モデル(LLM)を調整するための重要なステップとなっている。
既存のSFTメソッドは、各トレーニングインスタンスを一様シーケンスとして扱い、それらの関連性に関係なく、すべてのトークンに等しく重要である。
我々は,グループ最適化によるスーパービジョンファインチューニング(SFT-GO)を導入し,その重要性に基づいてトークンのグループを別々に扱う新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-17T23:12:28Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。
本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。
SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文 参考訳(メタデータ) (2024-12-19T12:06:24Z) - Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [22.103850646343915]
トークンレベルの勾配分析を用いて、専門家の矛盾するトークンを識別する。
次に、現在の専門家から他の専門家へのルーティングに矛盾するトークンを促進するように調整された正規化損失を追加します。
本手法は,多種多様な視覚・言語モデルのためのプラグインとして機能する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。