論文の概要: Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
- arxiv url: http://arxiv.org/abs/2602.02405v1
- Date: Mon, 02 Feb 2026 18:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.344408
- Title: Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
- Title(参考訳): エキスパートソリューションを学習可能な推論に転換するDidactic to Constructive
- Authors: Ethan Mendes, Jungsoo Park, Alan Ritter,
- Abstract要約: 本研究では,専門的解を詳細な分散的推論トレースに変換することによって,分散ギャップを橋渡しする2段階の方法である分散適応学習(DAIL)を提案する。
DAILは1000未満のエキスパートソリューションを利用してQwen2.5-InstructおよびQwen3モデルの10-25%のパス@kゲインを実現し、推論効率を2倍から4倍に改善し、ドメイン外の一般化を可能にする。
- 参考スコア(独自算出の注目度): 24.23048069764839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の改善は、一般的に、強化すべき正しい解をサンプリングするモデルの能力や、その問題を解決することができるより強力なモデルの存在に依存する。
しかし、現在のフロンティアモデルでさえ難解な問題が多く残っており、有効な訓練信号の抽出を妨げている。
有望な代替手段は、高品質な専門家のソリューションを活用することだが、このデータの素直な模倣は、基本的には分布から外れているため失敗する。
さらに、高品質なエキスパートソリューションは高価であり、一般化可能なサンプル効率のトレーニング方法を必要とする。
本研究では,まず,専門家の解法を詳細かつ非流通的な推論トレースに変換し,専門家の洞察と方法論に焦点をあてる2段階の手法である分散適応型模倣学習(DAIL)を提案する。
DAILは1000未満のエキスパートソリューションを利用してQwen2.5-InstructおよびQwen3モデルの10-25%のパス@kゲインを実現し、推論効率を2倍から4倍に改善し、ドメイン外の一般化を可能にする。
関連論文リスト
- No Need for Learning to Defer? A Training Free Deferral Framework to Multiple Experts through Conformal Prediction [3.746889836344766]
本稿では,共形予測に基づくエキスパート推論のための訓練不要,モデル非依存,エキスパート非依存のフレームワークを提案する。
我々の手法は、スタンドアローンモデルと最強の専門家の両方より一貫して優れています。
論文 参考訳(メタデータ) (2025-09-16T02:01:21Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。