論文の概要: Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers
- arxiv url: http://arxiv.org/abs/2605.11556v1
- Date: Tue, 12 May 2026 05:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.604847
- Title: Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers
- Title(参考訳): 近近近近近近近近近近近近近近近近近近近近近近遠近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
- Authors: Shengjie Wang, Guanghe Li, Zonghan Yang, Yang Gao,
- Abstract要約: Hindsight Hint Distillation (HHD)は、人間の教師が学生のミスを使ってターゲットのガイダンスを提供する方法にインスパイアされている。
HHDは、モデル自体が失敗したセルフロールアウトから後ろ向きのヒントを合成し、それをオン・ポリティクスのロールアウトの足場として利用する。
実験により、HHDは反復RFTおよび軌道合成ベースラインを著しく上回ることが示された。
- 参考スコア(独自算出の注目度): 18.98635326167859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complex long-horizon tasks requires strong planning and reasoning capabilities. Although datasets with explicit chain-of-thought (CoT) rationales can substantially benefit learning, they are costly to obtain. To address this challenge, we propose Hindsight Hint Distillation (HHD), which only requires easy-to-obtain question-answer pairs without CoT annotations. Inspired by how human teachers use student mistakes to provide targeted guidance, HHD synthesizes hindsight hints from the model's own failed self-rollouts and uses them to scaffold on-policy rollouts that successfully complete the tasks. The model then self-distills these scaffolded trajectories and generalizes to new problems without hint guidance. Experiments show that HHD significantly outperforms iterative RFT and trajectory-synthesis baselines, achieving an absolute improvement of 8\% on SWE-bench Verified, while all baselines improve by only around 2\%. Notably, the reasoning strategies induced by HHD generalize effectively to out-of-distribution tasks, yielding the largest gains on SWE-bench Multilingual despite no training on multilingual data. These results demonstrate that HHD can effectively synthesize expert-like reasoning from CoT-free data and substantially improve long-horizon performance.
- Abstract(参考訳): 複雑な長期タスクを解決するには、強い計画と推論能力が必要です。
明確なチェーン・オブ・シークレット(CoT)合理性を持つデータセットは、学習に大きな恩恵をもたらすが、入手にはコストがかかる。
この課題に対処するために,CoTアノテーションを使わずに容易に問合せを行うことのできるHindsight Hint Distillation (HHD)を提案する。
HHDは、人間の教師が学生のミスを使って、目標とするガイダンスを提供する方法にインスパイアされて、モデル自身の失敗するセルフロールアウトから、後見のヒントを合成し、それを、そのタスクを成功させるためのオンラインロールアウトの足場として利用する。
モデルはこれらの足場付き軌道を自己蒸留し、ヒントを示さずに新しい問題に一般化する。
実験の結果, HHD は反復 RFT および軌道合成ベースラインを著しく上回り, SWE-bench Verified では 8 % の絶対改善を達成し, 全ベースラインは 2 % 程度改善した。
特に、HHDによって引き起こされる推論戦略は、マルチリンガルデータをトレーニングすることなく、SWE-bench Multilingualにおいて最大の利益をもたらす、分配外タスクに効果的に一般化する。
これらの結果から,HHDはCoTフリーデータから専門家ライクな推論を効果的に合成し,長期化性能を大幅に向上させることができることが示された。
関連論文リスト
- HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization [47.38380084735716]
大規模な画像テキストペアで事前訓練された視覚教師付きモデル(VLM)は、顕著なゼロ/フェーショット性能を示した。
知識蒸留(KD)は、VLM能力を伝達するための自然な枠組みを提供するが、監督と蒸留の損失の間の勾配の衝突に悩まされる。
本稿では,異なる信号に対して2つの予測ヘッドを導入するDual-Head Optimization (DHO)を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。