論文の概要: SIGMA: Refining Large Language Model Reasoning via Sibling-Guided Monte Carlo Augmentation
- arxiv url: http://arxiv.org/abs/2506.06470v1
- Date: Fri, 06 Jun 2025 18:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.033968
- Title: SIGMA: Refining Large Language Model Reasoning via Sibling-Guided Monte Carlo Augmentation
- Title(参考訳): SIGMA: 兄弟誘導モンテカルロ拡張による大規模言語モデル推論の洗練
- Authors: Yanwei Ren, Haotian Zhang, Fuxiang Wu, Jiayan Qiu, Jiaxing Huang, Baosheng Yu, Liu Liu,
- Abstract要約: Monte Carlo Tree Searchは、高品質な連鎖データを生成するための強力なテクニックである。
従来の手法では、探索木から上位の軌道のみを保持するのが一般的である。
我々は,これら捨てられた兄弟ノードを再統合し,LSM推論を洗練するための新しいフレームワークであるSIGMAを提案する。
- 参考スコア(独自算出の注目度): 38.37231157929935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing large language models by simply scaling up datasets has begun to yield diminishing returns, shifting the spotlight to data quality. Monte Carlo Tree Search (MCTS) has emerged as a powerful technique for generating high-quality chain-of-thought data, yet conventional approaches typically retain only the top-scoring trajectory from the search tree, discarding sibling nodes that often contain valuable partial insights, recurrent error patterns, and alternative reasoning strategies. This unconditional rejection of non-optimal reasoning branches may waste vast amounts of informative data in the whole search tree. We propose SIGMA (Sibling Guided Monte Carlo Augmentation), a novel framework that reintegrates these discarded sibling nodes to refine LLM reasoning. SIGMA forges semantic links among sibling nodes along each search path and applies a two-stage refinement: a critique model identifies overlooked strengths and weaknesses across the sibling set, and a revision model conducts text-based backpropagation to refine the top-scoring trajectory in light of this comparative feedback. By recovering and amplifying the underutilized but valuable signals from non-optimal reasoning branches, SIGMA substantially improves reasoning trajectories. On the challenging MATH benchmark, our SIGMA-tuned 7B model achieves 54.92% accuracy using only 30K samples, outperforming state-of-the-art models trained on 590K samples. This result highlights that our sibling-guided optimization not only significantly reduces data usage but also significantly boosts LLM reasoning.
- Abstract(参考訳): データセットのスケールアップによる大規模言語モデルの強化は,スポットライトからデータ品質へのシフトによって,リターンの低下を招き始めている。
モンテカルロ・ツリー・サーチ (MCTS) は、高品質なチェーン・オブ・シントデータを生成する強力な手法として登場したが、従来の手法では、探索木からの上位の軌道のみを保持し、しばしば貴重な部分的な洞察、繰り返しエラーパターン、代替の推論戦略を含む兄弟ノードを捨てる。
非最適推論枝のこの無条件拒絶は、探索木全体において膨大な量の情報データを無駄にする可能性がある。
本稿では,SIGMA (Sibling Guided Monte Carlo Augmentation) を提案する。
SIGMAは、各探索経路に沿って、兄弟ノード間のセマンティックリンクを偽造し、2段階の改良を施す: 批判モデルは、兄弟集合全体で見過ごされた強みと弱みを識別し、リビジョンモデルは、この比較フィードバックに基づき、トップスコアの軌跡を洗練するためにテキストベースのバックプロパゲーションを実行する。
SIGMAは、未使用であるが、最適でない推論枝からの信号の回収と増幅により、推論軌道を大幅に改善する。
挑戦的なMATHベンチマークでは、SIGMAで調整された7Bモデルは、わずか30Kサンプルを使用して54.92%の精度で達成し、590Kサンプルでトレーニングされた最先端モデルよりも優れています。
この結果から,同胞誘導最適化はデータ使用量を大幅に削減するだけでなく,LCM推論を大幅に向上させることがわかった。
関連論文リスト
- RETENTION: Resource-Efficient Tree-Based Ensemble Model Acceleration with Content-Addressable Memory [9.502789435634975]
RETENTIONは、ツリーベースのモデル推論のCAMキャパシティ要求を大幅に削減するエンドツーエンドフレームワークである。
本稿では,CAMにおけるドナー状態の広範利用によるメモリ冗長性を軽減するために,2つの革新的なデータ配置戦略を取り入れたツリーマッピング手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T11:25:51Z) - Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst [42.40884882220895]
モデル自体がより長いCoTデータを合成し、自己学習により性能を向上させることができる。
提案したSRLMは,5つの推論タスクに対して,平均2.5ドル以上の絶対値改善を実現している。
論文 参考訳(メタデータ) (2025-05-20T09:21:26Z) - Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。
次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。
我々は,各ノードの解の直接評価を容易にするために,LLM(Large Language Model)ベースの値モデルを統合する。
当社のアプローチでは,強力なオープンソースAutoMLエージェントと比較して,パフォーマンスが6%向上している。
論文 参考訳(メタデータ) (2025-02-20T16:19:09Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。
AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。
ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文 参考訳(メタデータ) (2023-07-28T08:05:36Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。