論文の概要: GateKD: Confidence-Gated Closed-Loop Distillation for Robust Reasoning
- arxiv url: http://arxiv.org/abs/2605.13136v1
- Date: Wed, 13 May 2026 08:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.888975
- Title: GateKD: Confidence-Gated Closed-Loop Distillation for Robust Reasoning
- Title(参考訳): GateKD:ロバスト推論のためのクローズドループ蒸留の信頼性向上
- Authors: Kasidit Sermsri, Teerapong Panboonyuen,
- Abstract要約: 本稿では,信頼度の高いクローズドループ推論フレームワークであるGateKDを提案する。
GateKDは教師を静的なオラクルではなく、動的なゲートキーパーとして扱う。
GateKD は高い開ループ蒸留ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Distilling multi-step reasoning abilities from large language models (LLMs) into compact student models remains challenging due to noisy rationales, hallucinated supervision, and static teacher-student interactions. Existing reasoning distillation methods, including mentor-based approaches, predominantly operate in an open-loop manner, implicitly assuming uniform teacher reliability and consequently propagating erroneous intermediate reasoning. We propose GateKD, a confidence-gated closed-loop distillation framework that enables robust reasoning transfer by treating the teacher as a dynamic gatekeeper rather than a static oracle. GateKD introduces three complementary mechanisms: (i) confidence-gated soft supervision that selectively distills reliable predictive signals, (ii) gated hidden-state evolution that aligns intermediate representations only when teacher confidence is high, and (iii) reliability-filtered attention distillation that preserves stable reasoning structures while suppressing noisy patterns. These components jointly form a closed feedback loop in which teacher confidence continuously modulates the distillation process, reducing hallucination transfer and stabilizing student reasoning. Extensive experiments across commonsense, logical, and symbolic reasoning benchmarks, using T5 and Flan-T5 backbones of varying sizes, demonstrate that GateKD consistently outperforms strong open-loop distillation baselines. Notably, GateKD yields substantial gains in logical and symbolic reasoning, remains robust under low-resource distillation settings, and shows clear performance degradation when any gating component is removed. Our results highlight that confidence-gated closed-loop supervision is critical for building reliable and scalable small reasoning models.
- Abstract(参考訳): 大規模言語モデル(LLM)からコンパクトな学生モデルへの多段階推論能力の希薄化は、ノイズのある合理性、幻覚的な監督、静的教師と学生の相互作用によって依然として困難である。
メンターベースのアプローチを含む既存の推論蒸留法は、主にオープンループ方式で運用され、教師の信頼性を均一に仮定し、結果として誤った中間的推論を伝播する。
本稿では,教師を静的なオラクルではなく動的ゲートキーパーとして扱うことで,信頼性の高い閉ループ蒸留フレームワークであるGateKDを提案する。
GateKDは3つの相補的なメカニズムを導入している。
一 信頼性のある予測信号を選択的に蒸留する信頼性有能なソフト・インスペクション
(二)教師の信頼度が高い場合にのみ中間表現を整列する隠蔽状態の進化
三 ノイズのパターンを抑えつつ、安定な推論構造を保ちつつ、信頼性に配慮した注意蒸留。
これらのコンポーネントは、教師の信頼度が蒸留過程を継続的に調整し、幻覚伝達を減少させ、学生の推論を安定化する閉じたフィードバックループを共同で形成する。
様々な大きさのT5とFlan-T5のバックボーンを用いて、コモンセンス、論理的、記号的推論ベンチマークの広範な実験により、GateKDは強いオープンループ蒸留ベースラインを一貫して上回ることを示した。
特に、GateKDは論理的および記号的推論において実質的な利得を得られ、低リソース蒸留条件下では頑健であり、ゲーティング成分を除去した場合に明らかな性能劣化を示す。
この結果から,信頼性の高い小型推論モデルの構築には,信頼性の高いクローズドループ監視が不可欠であることが示唆された。
関連論文リスト
- GaitKD: A Universal Decoupled Distillation Framework for Efficient Gait Recognition [51.75783918486982]
歩行認識は、長距離および接触のない識別のための魅力的な生体計測モダリティである。
知識蒸留は、強力な教師から効率的な学生に知識を伝達する自然な方法を提供する。
本稿では,ゲート知識伝達を2つの相補成分に分解する蒸留フレームワークであるGaitKDを提案する。
論文 参考訳(メタデータ) (2026-04-29T03:24:38Z) - Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - Validity-Calibrated Reasoning Distillation [4.277471273303775]
推論蒸留は、大規模言語モデルからより小さく、より効率的なものへの多段階推論能力を伝達することを目的としている。
近年の手法は静的教師の階層化と軌道模倣としてのフレーム蒸留に依存している。
本稿では, 局所的な学習信号割り当ての問題として, 推論蒸留を取り扱う枠組みである妥当性校正推論蒸留を提案する。
論文 参考訳(メタデータ) (2026-04-14T12:32:12Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency [0.0]
本稿では、ロバスト統計に基づく原則化されたフレームワークであるREDistillを紹介する。
レディスティルは標準のKD目標をKL分散の一般化であるパワー分散損失に置き換える。
CIFAR-100 と ImageNet-1k の実験では、REDistill は多様な教師/学生アーキテクチャにおける生徒の精度を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-02-04T15:50:53Z) - Self-Filtered Distillation with LLMs-generated Trust Indicators for Reliable Patent Classification [29.336193842747832]
本稿では,特許分類に適したフレームワークであるSelf-Filtered Distillationを紹介する。
LLM生成の合理性は、地道的な監督よりも信頼の信号として扱う。
本手法は, ラベルに基づく学習, 従来の蒸留の精度, 安定性, 解釈可能性に優れる。
論文 参考訳(メタデータ) (2025-10-06T22:50:01Z) - KaVa: Latent Reasoning via Compressed KV-Cache Distillation [8.058130367727005]
KaVaは、教師の圧縮されたKVキャッシュから自己蒸留によって潜在学生に知識を直接蒸留するフレームワークである。
直接トークン対応に欠ける圧縮KV-cache内の抽象的・非構造的知識は、潜伏した推論学生にとって豊かな監督信号として機能することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:59:51Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。