論文の概要: Beyond Output Critique: Self-Correction via Task Distillation
- arxiv url: http://arxiv.org/abs/2602.00871v1
- Date: Sat, 31 Jan 2026 19:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.443539
- Title: Beyond Output Critique: Self-Correction via Task Distillation
- Title(参考訳): アウトプット批判を超えて:タスク蒸留による自己補正
- Authors: Hossein A. Rahmani, Mengting Wan, Pei Zhou, Longqi Yang, Nick Craswell, Emine Yilmaz, Sujay Kumar Jauhar,
- Abstract要約: 本稿では,ソリューションの洗練に先立ってタスク抽象化の中間段階を導入するフレームワークを提案する。
入力と初期応答が与えられた後、モデルはまず、主要な変数、制約、問題構造をキャプチャする構造化テンプレートにタスクを蒸留する。
この抽象化により、解のインスタンス化が導かれ、タスクのより明確な理解において、その後の応答がグラウンド化される。
- 参考スコア(独自算出の注目度): 36.44752912823049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promising self-correction abilities, where iterative refinement improves the quality of generated responses. However, most existing approaches operate at the level of output critique, patching surface errors while often failing to correct deeper reasoning flaws. We propose SELF-THOUGHT, a framework that introduces an intermediate step of task abstraction before solution refinement. Given an input and an initial response, the model first distills the task into a structured template that captures key variables, constraints, and problem structure. This abstraction then guides solution instantiation, grounding subsequent responses in a clearer understanding of the task and reducing error propagation. Crucially, we show that these abstractions can be transferred across models: templates generated by larger models can serve as structured guides for smaller LLMs, which typically struggle with intrinsic self-correction. By reusing distilled task structures, smaller models achieve more reliable refinements without heavy fine-tuning or reliance on external verifiers. Experiments across diverse reasoning tasks demonstrate that SELF-THOUGHT improves accuracy, robustness, and generalization for both large and small models, offering a scalable path toward more reliable self-correcting language systems.
- Abstract(参考訳): 大規模言語モデル (LLM) は、反復的な改善によって生成された応答の品質が向上する有望な自己補正能力を示している。
しかし、既存のほとんどのアプローチは出力批判のレベルで動作し、表面エラーにパッチを当てる一方で、深い推論の欠陥を修正するのに失敗する。
本稿では,ソリューションの洗練に先立ってタスク抽象化の中間段階を導入するフレームワークであるSELF-THOUGHTを提案する。
入力と初期応答が与えられた後、モデルはまず、主要な変数、制約、問題構造をキャプチャする構造化テンプレートにタスクを蒸留する。
この抽象化は、ソリューションのインスタンス化をガイドし、タスクをより明確に理解し、エラーの伝播を減らす。
より大規模なモデルによって生成されたテンプレートは、通常本質的な自己補正に苦しむ小さなLSMのための構造化ガイドとして機能する。
蒸留されたタスク構造を再利用することにより、より小型のモデルでは、高度な微調整や外部検証に依存することなく、より信頼性の高い改善が達成される。
多様な推論タスクに対する実験により、SELF-THOUGHTは、大小両方のモデルの正確性、堅牢性、一般化を改善し、より信頼性の高い自己修正言語システムへのスケーラブルなパスを提供する。
関連論文リスト
- CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation [0.0]
CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は、マルチモーダル画像生成に構造化推論パラダイムをもたらす、トレーニング不要でモデルに依存しないフレームワークである。
コンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善する。
これらの改善は無視できる推論時間のオーバーヘッドに過ぎず、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
論文 参考訳(メタデータ) (2025-12-23T13:44:41Z) - When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding [26.416630784362525]
大規模言語モデル(LLM)は、攻撃的、偽り、あるいは無意味なコンテンツを生成するのを避けるために、人間の好みと整合する必要がある。
本稿では,ベースモデルのアライメント能力を高めるための新しいフレームワークであるWak-to-Strong Decoding (WSD)を提案する。
我々はまた、ドラフトモデルとして小さなPilot-3Bを微調整するための新しいデータセットGenAlignerも収集しています。
論文 参考訳(メタデータ) (2025-06-09T05:21:22Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。