論文の概要: Training Large Language Models To Reason In Parallel With Global Forking Tokens
- arxiv url: http://arxiv.org/abs/2510.05132v1
- Date: Wed, 01 Oct 2025 02:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.835098
- Title: Training Large Language Models To Reason In Parallel With Global Forking Tokens
- Title(参考訳): 大規模言語モデルの訓練は、グローバルなフォークトークンと並列で行う
- Authors: Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan,
- Abstract要約: LLMは並列テスト時間計算のスケーリングによる性能向上を実証している。
困難な問題に対して、多種多様な正しい推論モードをトリガーするトークンをフォークすることは、通常サンプリングツリーの奥深くにある。
本研究では,ユニークな推論モードを保ち,創発的なグローバルフォークトークンを生成するSet Supervised Fine-Tuning (SSFT)を提案する。
- 参考スコア(独自算出の注目度): 12.234584843683416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although LLMs have demonstrated improved performance by scaling parallel test-time compute, doing so relies on generating reasoning paths that are both diverse and accurate. For challenging problems, the forking tokens that trigger diverse yet correct reasoning modes are typically deep in the sampling tree. Consequently, common strategies to encourage diversity, such as temperature scaling, encounter a worsened trade-off between diversity and accuracy. Motivated by this challenge, we treat parallel reasoning as a set-of-next-token-prediction problem, and incorporate a set-based global loss into Supervised Fine-Tuning (SFT) using self-supervised bipartite matching between our global forking tokens and unique reasoning traces. We observe that, while naive fine-tuning with multiple reasoning traces collapses these unique reasoning modes, our proposed method, Set Supervised Fine-Tuning (SSFT), preserves these modes and produces emergent global forking tokens. Experiments on multiple reasoning benchmarks show that our SSFT consistently outperforms SFT under both Pass@1 and Cons@k metrics.
- Abstract(参考訳): LLMは並列テスト時間計算のスケーリングによる性能向上を実証しているが、それは多様かつ正確な推論経路の生成に依存している。
困難な問題に対して、多様な正しい推論モードをトリガーするフォークトークンは、通常サンプリングツリーの奥深くにある。
その結果、温度スケーリングのような多様性を促進する共通の戦略は、多様性と正確性の間のトレードオフが悪化する。
この課題により、我々は並列推論をセット・オブ・ネクスト・トケン・プレディション問題として扱い、我々のグローバルフォークトークンとユニークな推論トレースとの間の自己教師付き二部マッチングを用いて、セットベースのグローバルロスをスーパーバイザード・ファイン・チューニング(SFT)に組み込む。
提案手法であるSet Supervised Fine-Tuning(SSFT)は,これらのモードを保存し,創発的なグローバルなフォークトークンを生成する。
複数の推論ベンチマークの実験によると、SSFTはPass@1とCons@kの両方のメトリクスでSFTを一貫して上回っている。
関連論文リスト
- Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Disentangling Reasoning Tokens and Boilerplate Tokens For Language Model Fine-tuning [46.43130011147807]
特に、トークンとボイラープレートトークンの推論は、重要性と学習の複雑さにおいて大きく異なります。
本稿では,適応トークン識別のための新しいShuffle-Aware Discriminator (SHAD)を提案する。
SHADを用いて、微調整中の推論トークンを適応的に強調するReasoning-Highlighted Fine-Tuning (RFT)法を提案する。
論文 参考訳(メタデータ) (2024-12-19T12:06:24Z) - Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [22.103850646343915]
トークンレベルの勾配分析を用いて、専門家の矛盾するトークンを識別する。
次に、現在の専門家から他の専門家へのルーティングに矛盾するトークンを促進するように調整された正規化損失を追加します。
本手法は,多種多様な視覚・言語モデルのためのプラグインとして機能する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。