論文の概要: Adaptive Weighting in Knowledge Distillation: An Axiomatic Framework for Multi-Scale Teacher Ensemble Optimization
- arxiv url: http://arxiv.org/abs/2601.17910v1
- Date: Sun, 25 Jan 2026 17:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.528683
- Title: Adaptive Weighting in Knowledge Distillation: An Axiomatic Framework for Multi-Scale Teacher Ensemble Optimization
- Title(参考訳): 知識蒸留における適応重み付け:マルチスケール教師アンサンブル最適化のための公理的枠組み
- Authors: Aaron R. Flouro, Shawn P. Chadwick,
- Abstract要約: 本稿では,3つの相補的尺度(トークン,タスク,コンテキスト)にまたがる知識蒸留における適応重み付けのための演算子に依存しないフレームワークを開発する。
我々は、整合作用素の存在と非特異性を確立し、標準仮定の下で勾配に基づく最適化の収束を特徴づけ、安定性と堅牢性を解析し、安全に制約された蒸留の抽象的な定式化を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation with multiple teachers is increasingly used to improve robustness, efficiency, and safety, yet existing approaches rely largely on heuristic or implementation-specific weighting schemes. This paper develops an operator-agnostic axiomatic framework for adaptive weighting in multi-teacher knowledge distillation across three complementary scales: token, task, and context. We formalize structural conditions under which adaptive weighting operators are well-defined, admit multiple non-equivalent implementations, and can be hierarchically composed via product-structure normalization. Within this framework, we establish existence and non-uniqueness of conforming operators, characterize convergence of gradient-based optimization under standard assumptions, analyze stability and perturbation robustness, and provide an abstract formulation of safety-constrained distillation. The results decouple theoretical guarantees from specific weighting formulas, enabling principled analysis of adaptive distillation methods under heterogeneity, distribution shift, and safety constraints.
- Abstract(参考訳): 複数の教師による知識蒸留は、堅牢性、効率、安全性の向上にますます利用されているが、既存のアプローチはヒューリスティックまたは実装固有の重み付け方式に大きく依存している。
本稿では,3つの相補的尺度(トークン,タスク,コンテキスト)にまたがる多教師知識蒸留における適応重み付けのための演算子非依存の公理的フレームワークを開発する。
適応重み付け作用素が適切に定義され、複数の非等価実装が認められ、製品構造正規化によって階層的に構成できる構造条件を定式化する。
本枠組みでは, 共役作用素の存在と非特異性を確立し, 標準仮定下での勾配に基づく最適化の収束を特徴づけ, 安定性と摂動堅牢性を解析し, 安全に制約された蒸留の抽象的な定式化を行う。
その結果, 一定の重み付け式から理論的保証を分離し, 不均一性, 分散シフト, 安全制約下での適応蒸留法の原理解析を可能にした。
関連論文リスト
- Recursive Meta-Distillation: An Axiomatic Framework for Iterative Knowledge Refinement [0.0]
本稿では,教師に明示的なアンカーを施した確率分布演算子の列として,反復的知識蒸留のための公理的・演算的枠組みを導入する。
その結果, キャパシティ制約下での反復蒸留および多教師蒸留における安定性, バイアス分散挙動, 故障モードの理解の理論的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-19T14:39:40Z) - Multi-Teacher Ensemble Distillation: A Mathematical Framework for Probability-Domain Knowledge Aggregation [0.0]
我々は,マルチテラーアンサンブル知識蒸留のための公理的・演算的枠組みを開発した。
特定の集約公式を規定するのではなく、有効な知識集約演算子を管理する5つのコア公理を定義する。
論文 参考訳(メタデータ) (2026-01-14T05:10:36Z) - Likelihood-guided Regularization in Attention Based Models [1.561268797057701]
視覚変換器(ViTs)のための確率誘導型変分型Ising型正規化フレームワークを提案する。
そこで,Ising正則化器は,不確実性を考慮した注意機構を通じて,精度の高い確率推定と構造的特徴選択を導出することを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:09Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Contrastive Knowledge Transfer and Robust Optimization for Secure Alignment of Large Language Models [9.353236468990945]
本稿では,安全アライメントとロバストネスにおける大規模言語モデルの限界に対処する。
コントラスト蒸留とノイズロバストトレーニングを組み合わせた微調整法を提案する。
その結果,本手法は知識伝達,堅牢性,全体的な安全性において,既存のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-10-31T00:54:33Z) - Optimal Regularization Under Uncertainty: Distributional Robustness and Convexity Constraints [9.77322868877488]
分布的に堅牢な最適正規化のためのフレームワークを導入する。
トレーニング分布の計算と均一な事前計算との間には,ロバストな正則化器がどのように介在するかを示す。
論文 参考訳(メタデータ) (2025-10-03T19:35:38Z) - Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。