論文の概要: Critique-Guided Distillation for Efficient and Robust Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.11628v3
- Date: Fri, 26 Sep 2025 21:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.933695
- Title: Critique-Guided Distillation for Efficient and Robust Language Model Reasoning
- Title(参考訳): 効率的なロバスト言語モデル推論のための批判ガイド付き蒸留法
- Authors: Berkcan Kapusuzoglu, Supriyo Chakraborty, Chia-Hsuan Lee, Sambit Sahu,
- Abstract要約: 専門家によるデモンストレーションで監督された微調整は、しばしば模倣問題に悩まされる。
教師が生成した説明的批判と洗練された反応でSFTを増強する多段階学習フレームワークであるCrytique-Guided Distillation (CGD)を提案する。
分析の結果,CGDは改良の不確実性を一貫して低減し,批判と反応の整合性を向上し,試料効率を向上することがわかった。
- 参考スコア(独自算出の注目度): 4.8433206430407045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) with expert demonstrations often suffers from the imitation problem, where models reproduce correct responses without internalizing the underlying reasoning. We propose Critique-Guided Distillation (CGD), a multi-stage training framework that augments SFT with teacher-generated explanatory critiques and refined responses. Instead of directly imitating teacher outputs, a student learns to map the triplet of prompt, its own initial response, and teacher critique into the refined teacher response, thereby capturing both what to output and why. Our analyses show that CGD consistently reduces refinement uncertainty, improves alignment between critiques and responses, and enhances sample efficiency. On reasoning benchmarks, CGD achieves substantial gains across LLaMA and Qwen families, including +15.0% on AMC23 and +12.2% on MATH-500, while avoiding the format drift issues observed in prior critique-based fine-tuning. Importantly, on LLaMA-3.1-8B CGD approaches or exceeds the performance of SimpleRL-Zero, which is a DeepSeek-R1 replication, while requiring 60x less compute. Beyond reasoning, CGD maintains or improves general instruction-following and factual accuracy, matching baseline performance on IFEval, MUSR, TruthfulQA, and BBH. In contrast, prior critique-based methods degrade these capabilities (e.g., -21% on IFEval). Taken together, these results establish CGD} as a robust and generalizable alternative to both conventional SFT and RL-based methods, offering a more efficient path toward advancing the reasoning and safety of large language models.
- Abstract(参考訳): 専門家によるデモンストレーションを伴う監視された微調整(SFT)は、しばしば模倣問題に悩まされ、モデルが基礎となる推論を内部化せずに正しい応答を再現する。
教師が生成した説明的批判と洗練された反応でSFTを増強する多段階学習フレームワークであるCrytique-Guided Distillation (CGD)を提案する。
教師のアウトプットを直接模倣する代わりに、生徒は、プロンプトのトリプルト、独自の初期応答、教師の批判を洗練された教師の応答にマッピングすることを学び、それによって出力と理由の両方をキャプチャする。
分析の結果,CGDは改良の不確実性を一貫して低減し,批判と反応の整合性を向上し,試料効率を向上することがわかった。
推論ベンチマークでは、CGDは、AMC23の+15.0%、MATH-500の+12.2%を含むLLaMAおよびQwenファミリーで大幅に向上し、事前の批判に基づく微調整で見られるフォーマットのドリフト問題を回避する。
LLaMA-3.1-8B CGDは、DeepSeek-R1レプリケーションであるSimpleRL-Zeroの性能に近づき、60倍の計算能力を必要とする。
推論以外にも、CGDはIFEval, MUSR, TruthfulQA, BBHのベースライン性能と一致する一般的な命令追従と事実的精度を維持または改善している。
対照的に、事前の批判に基づく手法はこれらの能力を低下させる(例えば、IFEvalでは-21%)。
これらの結果は、CGDを従来のSFT法とRL法の両方に代わる堅牢で一般化可能な代替手段として確立し、大規模言語モデルの推論と安全性を向上するためのより効率的な経路を提供する。
関連論文リスト
- RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation [31.28415780479141]
Reinforcement Learning from Teacher-Model Refinement (RLfR)は、外部教師モデル(GPT-4o)からの継続的な高品質フィードバックを活用することで、静的三重項への依存を取り除く新しいフレームワークである。
FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-29T20:35:35Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [22.423202755603768]
textbfLong-textbfShort Chain-of-Thought textbfMixture textbfSupervised textbfFine-textbfTuningを提案する。
LS-Mixture SFT法を用いてトレーニングしたモデルは,直接SFT法と比較すると平均精度が2.3%向上した。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [42.8895384120507]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。
提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。
実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文 参考訳(メタデータ) (2025-03-31T15:16:31Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models [48.412284346337344]
我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
論文 参考訳(メタデータ) (2023-05-19T20:58:22Z) - Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文 参考訳(メタデータ) (2022-10-25T07:07:54Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。