論文の概要: Multi-Teacher Ensemble Distillation: A Mathematical Framework for Probability-Domain Knowledge Aggregation
- arxiv url: http://arxiv.org/abs/2601.09165v1
- Date: Wed, 14 Jan 2026 05:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.274653
- Title: Multi-Teacher Ensemble Distillation: A Mathematical Framework for Probability-Domain Knowledge Aggregation
- Title(参考訳): マルチテラーアンサンブル蒸留:確率-ドメイン知識集約のための数学的枠組み
- Authors: Aaron R. Flouro, Shawn P. Chadwick,
- Abstract要約: 我々は,マルチテラーアンサンブル知識蒸留のための公理的・演算的枠組みを開発した。
特定の集約公式を規定するのではなく、有効な知識集約演算子を管理する5つのコア公理を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the probability-domain distillation framework of Sparse-KD, we develop an axiomatic, operator-theoretic framework for multi-teacher ensemble knowledge distillation. Rather than prescribing a specific aggregation formula, we define five core axioms governing valid knowledge aggregation operators, encompassing convexity, positivity, continuity, weight monotonicity, and temperature coherence. We prove the existence and non-uniqueness of operator families satisfying these axioms, establishing that multiple distinct aggregation mechanisms conform to the same foundational principles. Within this framework, we establish operator-agnostic guarantees showing that multi-teacher aggregation reduces both stochastic variance and systematic supervisory bias under heterogeneous teachers, while providing Jensen-type bounds, log-loss guarantees, and safety attenuation properties. For aggregation operators linear in teacher weights, we further establish classical ensemble variance-reduction results under standard independence assumptions, with extensions to correlated-error regimes. The framework provides theoretical grounding for multi-teacher distillation from diverse frontier models while admitting multiple valid implementation strategies.
- Abstract(参考訳): Sparse-KDの確率領域蒸留フレームワークを基盤として,マルチ教師の知識蒸留のための公理的・演算的枠組みを構築した。
特定の集約式を規定するのではなく、凸性、肯定性、連続性、重量単調性、温度コヒーレンスを含む、有効な知識集約演算子を管理する5つのコア公理を定義する。
これらの公理を満たす作用素族の存在と非特異性を証明し、複数の異なるアグリゲーション機構が同じ基本原理に従うことを証明した。
本枠組みでは,教師の不均一な教師の確率的分散と系統的監督バイアスを軽減し,ジェンセン型境界,ログロス保証,安全減衰特性を提供する。
教師の重みで線形な集約演算子に対しては、標準独立仮定の下で古典的なアンサンブル分散還元結果を更に確立し、相関エラー体制に拡張する。
このフレームワークは、様々なフロンティアモデルからのマルチティーチンガー蒸留の理論的基盤を提供すると同時に、複数の有効な実装戦略を認める。
関連論文リスト
- Sparse Knowledge Distillation: A Mathematical Framework for Probability-Domain Temperature Scaling and Multi-Stage Compression [0.0]
確率領域軟化演算子に基づくスパース知識蒸留のための統一的理論フレームワークを開発する。
本稿では、ランク保存、連続性、エントロピー単調性、アイデンティティ、境界挙動に基づく確率領域軟化作用素の公理的定義を導入する。
その結果、ブラックボックスの教師の蒸留、トップ$k$のトランケーションやテキストのみのアウトプットなどの部分アクセス設定、プライバシに等価なモデル圧縮の理論的基盤を提供する。
論文 参考訳(メタデータ) (2026-01-06T17:17:24Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - A General Weighting Theory for Ensemble Learning: Beyond Variance Reduction via Spectral and Geometric Structure [0.0]
本稿では,アンサンブル学習のための一般的な重み付け理論を開発する。
我々は、仮説空間に作用する線型作用素としてアンサンブルを定式化する。
非一様構造重みが平均値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-12-25T08:51:01Z) - Structured Basis Function Networks: Loss-Centric Multi-Hypothesis Ensembles with Controllable Diversity [46.60221265861393]
既存の予測の不確実性に対するアプローチは、多様性を促進するが原則化された集約を欠くマルチハイプセシス予測に依存している。
Structured Basis Function Networkはこのギャップに対処し、Bregmanの発散によって引き起こされる中心的な凝集を通して多仮説予測とエンハンブルをリンクする。
調整可能な多様性メカニズムは、バイアス-分散-多様性トレードオフのパラメトリック制御を提供し、多仮説一般化と損失認識アンサンブルアグリゲーションを接続する。
論文 参考訳(メタデータ) (2025-09-02T19:53:43Z) - Quadratic Gating Mixture of Experts: Statistical Insights into Self-Attention [28.17124843417577]
混合専門家モデル(MoE)は、計算オーバーヘッドを保ちながら、モデルのキャパシティを効果的にスケーリングすることで知られる。
我々は,MoEと自己注意機構の厳密な関係を確立し,自己注意行列の各行が線形専門家の二次ゲーティング混合として記述可能であることを示す。
自己注意の式における値行列に非線形アクティベーション関数を適用可能な,新規なemphactive-attention機構を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:06:37Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets [12.461503242570643]
emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
論文 参考訳(メタデータ) (2021-05-14T17:50:14Z) - GroupifyVAE: from Group-based Definition to VAE-based Unsupervised
Representation Disentanglement [91.9003001845855]
他の誘導バイアスを導入しないと、VAEベースの非監視的非絡み合いは実現できない。
グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続に対処する。
提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。
論文 参考訳(メタデータ) (2021-02-20T09:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。