論文の概要: Sparse Knowledge Distillation: A Mathematical Framework for Probability-Domain Temperature Scaling and Multi-Stage Compression
- arxiv url: http://arxiv.org/abs/2601.03195v1
- Date: Tue, 06 Jan 2026 17:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.040889
- Title: Sparse Knowledge Distillation: A Mathematical Framework for Probability-Domain Temperature Scaling and Multi-Stage Compression
- Title(参考訳): スパース知識蒸留 : 確率領域温度スケーリングとマルチステージ圧縮のための数学的枠組み
- Authors: Aaron R. Flouro, Shawn P. Chadwick,
- Abstract要約: 確率領域軟化演算子に基づくスパース知識蒸留のための統一的理論フレームワークを開発する。
本稿では、ランク保存、連続性、エントロピー単調性、アイデンティティ、境界挙動に基づく確率領域軟化作用素の公理的定義を導入する。
その結果、ブラックボックスの教師の蒸留、トップ$k$のトランケーションやテキストのみのアウトプットなどの部分アクセス設定、プライバシに等価なモデル圧縮の理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a unified theoretical framework for sparse knowledge distillation based on probability-domain softening operators. While the equivalence $p^{1/T} \propto \mathrm{softmax}(z/T)$ is well known, our contribution is an operator-level analytical framework built on this foundation rather than the equivalence itself. The framework comprises four core components: (i) operator-agnostic bias--variance decompositions that characterize when sparse students outperform dense teachers, (ii) a homotopy path formalization of multi-stage pruning in function space explaining why iterative compression succeeds where one-shot pruning fails, (iii) convergence guarantees establishing $O(1/n)$ rates for $n$-stage distillation with explicit parameter dependence, and (iv) equivalence class characterizations identifying distinct probability-domain operators that yield identical student models under capacity constraints. We introduce an axiomatic definition of probability-domain softening operators based on ranking preservation, continuity, entropy monotonicity, identity, and boundary behavior, and show that multiple non-equivalent operator families satisfy these axioms. All learning-theoretic guarantees are shown to hold uniformly across this operator class, independent of implementation details. These results provide theoretical grounding for black-box teacher distillation, partial-access settings such as top-$k$ truncation and text-only outputs, and privacy-preserving model compression.
- Abstract(参考訳): 確率領域軟化演算子に基づくスパース知識蒸留のための統一的理論フレームワークを開発する。
等価性 $p^{1/T} \propto \mathrm{softmax}(z/T)$ はよく知られているが、我々の貢献は同値性そのものではなく、この基礎の上に構築された作用素レベルの解析的枠組みである。
フレームワークは4つのコアコンポーネントから構成されている。
一 疎通の生徒が密接な教師より優れているときに特徴付けられる操作者非依存バイアス-分散分解
(ii) 単発プルーニングが失敗した場合に反復圧縮が成功する理由を説明する関数空間における多段プルーニングのホモトピーパス形式化。
三 明示的パラメータ依存を伴うn$段蒸留のO(1/n)$レートの設定を保証し、
(4)同値クラスの特徴付けは、キャパシティ制約の下で同一の学生モデルを生成する異なる確率領域演算子を識別する。
本稿では、ランク保存、連続性、エントロピー単調性、アイデンティティ、境界挙動に基づく確率領域軟化作用素の公理的定義を導入し、複数の非等価作用素族がこれらの公理を満たすことを示す。
すべての学習理論保証は、実装の詳細とは独立して、この演算子クラス全体で均一に保持される。
これらの結果は、ブラックボックスの教師蒸留、トップ$k$のトランケーションやテキストのみのアウトプットなどの部分アクセス設定、プライバシ保護モデル圧縮の理論的基盤を提供する。
関連論文リスト
- A Foundational Theory of Quantitative Abstraction: Adjunctions, Duality, and Logic for Probabilistic Systems [2.362412515574206]
大規模あるいは連続的な状態空間は、正確に解析しやすくし、原理化された量的抽象を要求する。
この研究は、圏論、コレージュブラ、量論理、最適輸送を統合することで、そのような抽象の統一理論を発展させる。
論文 参考訳(メタデータ) (2025-10-22T10:16:24Z) - A Mean-Field Theory of $Θ$-Expectations [2.1756081703276]
我々はそのような非線形モデルのための新しい計算のクラスを開発する。
Theta-Expectation は部分付加性の公理と一致することが示されている。
論文 参考訳(メタデータ) (2025-07-30T11:08:56Z) - A Theory of $θ$-Expectations [2.1756081703276]
我々は、ドライバーがポイントワイズ幾何学である微分方程式のクラスのためのフレームワークを開発する。
システムのトラクタビリティは、世界的なユニークかつグローバルな存在を前提としている。
ドライバー関数に対するリプシッツ最大値写像。
論文 参考訳(メタデータ) (2025-07-27T16:56:01Z) - Score-Based Model for Low-Rank Tensor Recovery [49.158601255093416]
低ランクテンソル分解(TD)は、マルチウェイデータ解析に有効なフレームワークを提供する。
従来のTD法は、CPやタッカー分解のような事前定義された構造的仮定に依存している。
本稿では,事前定義された構造的仮定や分布的仮定の必要性を排除したスコアベースモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T15:05:37Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Statistical optimality conditions for compressive ensembles [7.766921168069532]
本研究では,高次元データの無作為圧縮を訓練した低複雑さ経験的リスク最小化器のアンサンブルの理論解析のための枠組みを提案する。
本稿では, 圧縮性の概念として, 余剰リスクに関する一般分布依存上界を導入する。
次に、ジョンソン-リンデンシュトラウス写像を圧縮スキームとして考慮し、この一般化を分類および回帰タスクに縛り付ける。
論文 参考訳(メタデータ) (2021-06-02T11:52:31Z) - Finite Block Length Analysis on Quantum Coherence Distillation and
Incoherent Randomness Extraction [64.04327674866464]
本稿では,非コヒーレントな測定の前に自由な非コヒーレントな操作を許容するランダム性抽出フレームワークを提案する。
与えられた量子状態から抽出可能なランダムビットの最大数は、同じ状態から蒸留できるコヒーレントビットの最大数と正確に等しいことを示す。
顕著なことに、非一貫性な演算クラスはすべて、同じ二階展開を許容する。
論文 参考訳(メタデータ) (2020-02-27T09:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。