論文の概要: Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories
- arxiv url: http://arxiv.org/abs/2604.11365v1
- Date: Mon, 13 Apr 2026 12:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.51938
- Title: Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories
- Title(参考訳): コントラストからの学習: 逆探索軌道からの推論経路の合成
- Authors: Peiyang Liu, Zhirui Chen, Xi Wang, Di Liang, Youru Li, Zhi Cai, Wei Ye,
- Abstract要約: Contrastive Reasoning Path Synthesis (CRPS)は、コントラスト抽出を合成手順に変換するフレームワークである。
CRPSは構造化された反射過程を用いて、高品質な探索軌道と低品質な探索軌道の違いを分析し、戦略的なピボットと局所的な障害モードに関する明確な情報を抽出する。
実験により,60KのCRPS合成サンプルを微調整したモデルが,標準拒絶サンプリングから抽出した590Kのサンプルに基づいてトレーニングしたベースラインの性能に適合するか,あるいは上回っていることを示す。
- 参考スコア(独自算出の注目度): 26.441136942925056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search (MCTS) has been widely used for automated reasoning data exploration, but current supervision extraction methods remain inefficient. Standard approaches retain only the single highest-reward trajectory, discarding the comparative signals present in the many explored paths. Here we introduce \textbf{Contrastive Reasoning Path Synthesis (CRPS)}, a framework that transforms supervision extraction from a filtering process into a synthesis procedure. CRPS uses a structured reflective process to analyze the differences between high- and low-quality search trajectories, extracting explicit information about strategic pivots and local failure modes. These insights guide the synthesis of reasoning chains that incorporate success patterns while avoiding identified pitfalls. We show empirically that models fine-tuned on just 60K CRPS-synthesized examples match or exceed the performance of baselines trained on 590K examples derived from standard rejection sampling, a 20$\times$ reduction in dataset size. Furthermore, CRPS improves generalization on out-of-domain benchmarks, demonstrating that learning from the contrast between success and failure produces more transferable reasoning capabilities than learning from success alone.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は自動推論データ探索に広く用いられているが、現在の監督抽出法は効率的ではない。
標準的アプローチは、探索された多くの経路に存在する比較信号を捨て、単一の最高逆軌道のみを保持する。
ここでは、フィルタリングプロセスからインスペクタ抽出を合成手順に変換するフレームワークである \textbf{Contrastive Reasoning Path Synthesis (CRPS) を紹介する。
CRPSは構造化された反射過程を用いて、高品質な探索軌道と低品質な探索軌道の違いを分析し、戦略的なピボットと局所的な障害モードに関する明確な情報を抽出する。
これらの洞察は、特定された落とし穴を避けながら成功パターンを取り入れた推論チェーンの合成を導く。
実験により,60KのCRPS合成サンプルを微調整したモデルが,標準拒否サンプリングから抽出した590Kサンプルに基づいてトレーニングしたベースラインの性能と一致するか,あるいは超えるか,20$\times$データセットサイズを削減できることを示した。
さらに、CRPSはドメイン外のベンチマークの一般化を改善し、成功と失敗の対比から学ぶことで、成功のみから学ぶことよりも、移行可能な推論能力が得られることを示した。
関連論文リスト
- On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning [63.41902113656453]
長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
論文 参考訳(メタデータ) (2026-04-02T07:00:54Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning [32.295907409325615]
強化学習による検索エンジンの推論のための大規模言語モデルの訓練は、信用代行問題によって妨げられる。
2つの相補的なアイデアに基づいて構築されたフレームワークであるSLATEを提案する。
7つのQAベンチマークの実験では、SLATEがスパース・リワードとプロセス・リワードのベースラインを一貫して上回っていることが確認された。
論文 参考訳(メタデータ) (2026-02-26T19:05:40Z) - Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models [2.5170433424424874]
Reinforcement Learning with Verifiable Rewardsは、大規模言語モデルにおける厳格な推論能力を取り入れるための支配的なパラダイムとして、自らを確立している。
このアライメントプロセスにおいて重要な病理は、有効だが稀な(ベースモデル分布下での低様相)推論経路の体系的抑制である。
本稿では,ベースモデルの潜伏多様性を捨てることなく,この崩壊を防止すべく,ARTS(Amortized Reasoning Tree Search)を提案する。
論文 参考訳(メタデータ) (2026-02-13T11:52:50Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View [10.95044674432639]
マルチモーダル推論のための2つの難解なサンプリング手法を提案する。
本稿では, プログレッシブ・イメージ・セマンティック・マスキング(PISM)が, 画像の系統的劣化を通じてサンプル硬さを定量化することを示す。
また、相互モダリティ・アテンション・バランス(CMAB)が相互の相互作用の複雑さを評価することも示している。
論文 参考訳(メタデータ) (2025-11-10T05:31:59Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。