論文の概要: Towards the Fundamental Limits of Knowledge Transfer over Finite Domains
- arxiv url: http://arxiv.org/abs/2310.07838v3
- Date: Sun, 12 Nov 2023 10:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:13:32.913699
- Title: Towards the Fundamental Limits of Knowledge Transfer over Finite Domains
- Title(参考訳): 有限領域上の知識伝達の基本限界に向けて
- Authors: Qingyue Zhao and Banghua Zhu
- Abstract要約: 3つの段階の特権情報によって転送が促進されることを示す。
第一段階では、ハードラベルを持つサンプルのみが知られており、最大極大推定器はミニマックスレート$sqrt|mathcal Smathcal A|/n$に達する。
第3のレベルはさらに、サンプル入力毎に$mathcal A$のソフトラベル(完全ロジット)を学生に提供するので、学生は$|mathcal S|/n$ free of $を楽しむことができる。
- 参考スコア(独自算出の注目度): 8.575522204707957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We characterize the statistical efficiency of knowledge transfer through $n$
samples from a teacher to a probabilistic student classifier with input space
$\mathcal S$ over labels $\mathcal A$. We show that privileged information at
three progressive levels accelerates the transfer. At the first level, only
samples with hard labels are known, via which the maximum likelihood estimator
attains the minimax rate $\sqrt{{|{\mathcal S}||{\mathcal A}|}/{n}}$. The
second level has the teacher probabilities of sampled labels available in
addition, which turns out to boost the convergence rate lower bound to
${{|{\mathcal S}||{\mathcal A}|}/{n}}$. However, under this second data
acquisition protocol, minimizing a naive adaptation of the cross-entropy loss
results in an asymptotically biased student. We overcome this limitation and
achieve the fundamental limit by using a novel empirical variant of the squared
error logit loss. The third level further equips the student with the soft
labels (complete logits) on ${\mathcal A}$ given every sampled input, thereby
provably enables the student to enjoy a rate ${|{\mathcal S}|}/{n}$ free of
$|{\mathcal A}|$. We find any Kullback-Leibler divergence minimizer to be
optimal in the last case. Numerical simulations distinguish the four learners
and corroborate our theory.
- Abstract(参考訳): 教師からのサンプル$n$ から、ラベル$\mathcal a$ よりも入力空間$\mathcal s$ の確率的学生分類器への知識伝達の統計的効率を特徴付ける。
3つの段階の特権情報が転送を加速することを示す。
第1段階では、ハードラベルを持つサンプルのみが知られており、最大確率推定器が最小値$\sqrt{{|{\mathcal s}||{\mathcal a}|}/{n}}$に達する。
第2のレベルは、サンプルラベルの教師の確率も備えており、これは${{|{\mathcal s}||{\mathcal a}|}/{n}}$ の収束率を下げる結果となる。
しかし、この第2のデータ取得プロトコルでは、クロスエントロピー損失の単純適応が最小化され、漸近的に偏りが生じる。
この制限を克服し、二乗誤差ロジット損失の新たな経験的変種を用いて基本限界を達成する。
第3レベルはさらに、サンプル入力毎に与えられた${\mathcal a}$のソフトラベル(完全ロジット)を学生に供給し、それによって学生は${|{\mathcal s}|}/{n}$の$|{\mathcal a}|$を享受することができる。
最後のケースでは、Kulback-Leibler分散最小化器が最適である。
数値シミュレーションは4人の学習者を区別し、我々の理論を裏付ける。
関連論文リスト
- Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Transfer Learning Beyond Bounded Density Ratios [21.522183597134234]
学習アルゴリズムは、あるソース分布からデータを収集するが、異なるターゲット分布に対して$Q$である。
我々の主な結果は、ドメインの$mathbbRn$に対する一般的な転送不等式であり、非常に穏やかな仮定の下では、低次数に対する非自明な転送学習が可能であることを証明している。
論文 参考訳(メタデータ) (2024-03-18T17:02:41Z) - Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss [33.18537822803389]
L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。
以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
論文 参考訳(メタデータ) (2024-02-08T18:57:42Z) - Towards a statistical theory of data selection under weak supervision [7.540077751816086]
サイズが$N$のサンプルが与えられた場合、統計的な推定や学習に使用される小さなサイズの$nN$のサブサンプルを選択するのが有用である。
我々は、ラベルのないサンプル$N$$bold x_i_ile N$を与えられると仮定し、ランダムな推測よりも$y_i$のラベルを予測できる代理モデルにアクセスできると仮定する。
論文 参考訳(メタデータ) (2023-09-25T22:23:27Z) - Active Cost-aware Labeling of Streaming Data [11.501619634838312]
本研究では,アクティブな学習者がデータポイントのストリームに直面するストリーミングデータのラベル付けについて検討する。
まず、データ入力が$K$の離散分布の1つに属し、ラベリングコストと予測誤差をキャプチャする損失によってこの問題を定式化する際の設定について検討する。
ラベル付けコストが$B$の場合、不確実性が時間とコスト依存しきい値よりも大きい場合のラベル付けを選択するアルゴリズムは、最悪の$widetildeO(Bfrac1)上限を達成する。
論文 参考訳(メタデータ) (2023-04-13T20:23:27Z) - Statistical Hypothesis Testing Based on Machine Learning: Large
Deviations Analysis [15.605887551756933]
機械学習(ML)分類手法の性能、特に誤差確率がゼロに収束する速度について検討する。
例えば $sim expleft(-n,I + o(n) right) のように指数関数的に消滅する誤差確率を示すMLの数学的条件を提供する。
言い換えれば、分類誤差確率はゼロに収束し、その速度はトレーニング用に利用可能なデータセットの一部で計算できる。
論文 参考訳(メタデータ) (2022-07-22T08:30:10Z) - High Probability Bounds for a Class of Nonconvex Algorithms with AdaGrad
Stepsize [55.0090961425708]
本研究では,AdaGradのスムーズな非確率問題に対する簡易な高確率解析法を提案する。
我々はモジュラーな方法で解析を行い、決定論的設定において相補的な$mathcal O (1 / TT)$収束率を得る。
我々の知る限りでは、これは真に適応的なスキームを持つAdaGradにとって初めての高い確率である。
論文 参考訳(メタデータ) (2022-04-06T13:50:33Z) - Provably Breaking the Quadratic Error Compounding Barrier in Imitation
Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。
rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。
Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文 参考訳(メタデータ) (2021-02-25T15:50:19Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。