論文の概要: Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation
- arxiv url: http://arxiv.org/abs/2505.11628v1
- Date: Fri, 16 May 2025 18:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.74884
- Title: Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation
- Title(参考訳): 批判ガイド付き蒸留-より良い蒸留による微調整の改善-
- Authors: Berkcan Kapusuzoglu, Supriyo Chakraborty, Chia-Hsuan Lee, Sambit Sahu,
- Abstract要約: スペシャリストによるファインチューニング(SFT: Supervised Fine-tuning)は、しばしば模倣問題に悩まされる。
SFTプロセスに教師モデルを生成するための新しいフレームワークであるtextscCritique-Guided Distillation (CGD)を提案する。
- 参考スコア(独自算出の注目度): 3.836107941956211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) using expert demonstrations often suffer from the imitation problem, where the model learns to reproduce the correct responses without \emph{understanding} the underlying rationale. To address this limitation, we propose \textsc{Critique-Guided Distillation (CGD)}, a novel multi-stage framework that integrates teacher model generated \emph{explanatory critiques} and \emph{refined responses} into the SFT process. A student model is then trained to map the triplet of prompt, teacher critique, and its own initial response to the corresponding refined teacher response, thereby learning both \emph{what} to imitate and \emph{why}. Using entropy-based analysis, we show that \textsc{CGD} reduces refinement uncertainty and can be interpreted as a Bayesian posterior update. We perform extensive empirical evaluation of \textsc{CGD}, on variety of benchmark tasks, and demonstrate significant gains on both math (AMC23 +17.5%) and language understanding tasks (MMLU-Pro +6.3%), while successfully mitigating the format drift issues observed in previous critique fine-tuning (CFT) techniques.
- Abstract(参考訳): 専門家によるデモンストレーションを用いた監視された微調整(SFT)は、しばしば模倣問題に悩まされる。
この制限に対処するために,教師モデルの生成した「emph{explanatory critiques」と「emph{refined response」をSFTプロセスに統合する,新しい多段階フレームワークである「CGD」を提案する。
学生モデルは、プロンプトのトリプルト、教師の批判、およびそれに対応する洗練された教師の反応に対する自身の初期応答をマップするように訓練され、その結果、擬似的に \emph{what} と \emph{why} の両方を学ぶ。
エントロピーに基づく解析により,<textsc{CGD} は洗練の不確かさを低減し,ベイズ的後続更新と解釈できることを示す。
各種ベンチマークタスクにおいて, textsc{CGD} を広範囲に評価し, 算数 (AMC23 + 17.5%) と言語理解タスク (MMLU-Pro + 6.3%) に有意な効果を示した。
関連論文リスト
- Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [22.423202755603768]
textbfLong-textbfShort Chain-of-Thought textbfMixture textbfSupervised textbfFine-textbfTuningを提案する。
LS-Mixture SFT法を用いてトレーニングしたモデルは,直接SFT法と比較すると平均精度が2.3%向上した。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Referee: Reference-Free Sentence Summarization with Sharper
Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。
我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文 参考訳(メタデータ) (2022-10-25T07:07:54Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。