論文の概要: Information-Theoretic Bounds on Transfer Generalization Gap Based on
Jensen-Shannon Divergence
- arxiv url: http://arxiv.org/abs/2010.09484v4
- Date: Mon, 25 Jan 2021 04:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 01:02:43.911854
- Title: Information-Theoretic Bounds on Transfer Generalization Gap Based on
Jensen-Shannon Divergence
- Title(参考訳): jensen-shannon 発散に基づく転送汎化ギャップの情報理論的境界
- Authors: Sharu Theresa Jose, Osvaldo Simeone
- Abstract要約: トランスファーラーニングでは、異なるデータ分布からデータセットをトレーニングし、テストする。
本研究は, 平均移動一般化ギャップに関する新しい情報理論上界を示す。
- 参考スコア(独自算出の注目度): 42.275148861039895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In transfer learning, training and testing data sets are drawn from different
data distributions. The transfer generalization gap is the difference between
the population loss on the target data distribution and the training loss. The
training data set generally includes data drawn from both source and target
distributions. This work presents novel information-theoretic upper bounds on
the average transfer generalization gap that capture $(i)$ the domain shift
between the target data distribution $P'_Z$ and the source distribution $P_Z$
through a two-parameter family of generalized
$(\alpha_1,\alpha_2)$-Jensen-Shannon (JS) divergences; and $(ii)$ the
sensitivity of the transfer learner output $W$ to each individual sample of the
data set $Z_i$ via the mutual information $I(W;Z_i)$. For $\alpha_1 \in (0,1)$,
the $(\alpha_1,\alpha_2)$-JS divergence can be bounded even when the support of
$P_Z$ is not included in that of $P'_Z$. This contrasts the Kullback-Leibler
(KL) divergence $D_{KL}(P_Z||P'_Z)$-based bounds of Wu et al. [1], which are
vacuous under this assumption. Moreover, the obtained bounds hold for unbounded
loss functions with bounded cumulant generating functions, unlike the
$\phi$-divergence based bound of Wu et al. [1]. We also obtain new upper bounds
on the average transfer excess risk in terms of the $(\alpha_1,\alpha_2)$-JS
divergence for empirical weighted risk minimization (EWRM), which minimizes the
weighted average training losses over source and target data sets. Finally, we
provide a numerical example to illustrate the merits of the introduced bounds.
- Abstract(参考訳): 転送学習では、異なるデータ分布からデータセットをトレーニングおよびテストする。
転送一般化ギャップは、対象データ分布における人口損失とトレーニング損失との差である。
トレーニングデータセットは一般的に、ソースとターゲットの両方のディストリビューションから引き出されたデータを含む。
本研究は,$ をキャプチャする平均転送汎化ギャップに関する新しい情報理論上界を提案する。
(i)$ 対象データ分散 $p'_z$ とソース分散 $p_z$ の間の領域シフト 一般化された $(\alpha_1,\alpha_2)$-jensen-shannon (js) の2パラメータファミリー と $
(ii)転送学習者の感度$$W$は、相互情報$I(W;Z_i)$を介してデータセットの各サンプルに対して$Z_i$となる。
$\alpha_1 \in (0,1)$の場合、$(\alpha_1,\alpha_2)$-JSの分岐は、$P'_Z$のサポートが$P'_Z$に含まれていない場合でも境界づけられる。
これはkullback-leibler (kl) divergence $d_{kl}(p_z||p'_z)$-based bounds of wu et alと対照的である。
[1]であり、この仮定では空白である。
さらに、得られた境界は、wuなどの$\phi$-divergenceベースの境界とは異なり、有界累積生成関数を持つ非有界損失関数に対して保持される。
[1].
また,平均伝達過剰リスクに対する新たな上限として,経験的重み付きリスク最小化 (ewrm) に対する$(\alpha_1,\alpha_2)$-js の発散により,ソースおよびターゲットデータセットに対する重み付き平均トレーニング損失を最小化する。
最後に、導入した境界の利点を説明する数値的な例を示す。
関連論文リスト
- TIC-TAC: A Framework To Learn And Evaluate Your Covariance [119.82937345718378]
State-of-the-art method predict the mean $f_theta(x)$ and covariance $textrmCov(f_theta(x))$ of the target distribution through the two neural network using the negative log-likelihood。
1)予測共分散は予測平均のランダム性を真に捉えているのか?
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - Learning Algorithm Generalization Error Bounds via Auxiliary
Distributions [15.733387052599]
一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。
一般化誤差の新しい上限を導出する,創造的手法,すなわち補助分布法を提案する。
論文 参考訳(メタデータ) (2022-10-02T10:37:04Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - An Information-Theoretic Analysis for Transfer Learning: Error Bounds
and Applications [5.081241420920605]
本稿では,伝達学習アルゴリズムの一般化誤差と過剰リスクに関する情報理論解析を行う。
我々の結果は、おそらく予想通り、Kulback-Leiblerの発散$D(mu||mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
そこで本研究では,ソースデータとターゲットデータの重み付けを適応的に調整するInfoBoostアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - $\alpha$-GAN: Convergence and Estimation Guarantees [7.493779672689531]
一般CPE損失関数 GAN の min-max 最適化と、関連する$f$-divergences の最小化との対応性を証明する。
次に、$alpha$-GAN を $alpha$-loss で定義し、いくつかの GAN を補間し、有元発散の最小化に対応する。
論文 参考訳(メタデータ) (2022-05-12T23:26:51Z) - Non-Gaussian Component Analysis via Lattice Basis Reduction [56.98280399449707]
非ガウス成分分析(NGCA)は分布学習問題である。
我々は,NGCA に対して,$A$ が離散的あるいはほぼ離散的であるような効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-12-16T18:38:02Z) - Locally differentially private estimation of nonlinear functionals of
discrete distributions [9.028773906859541]
離散分布の非線形関数を局所的差分プライバシーの文脈で推定する問題について検討する。
alpha$-locally differentially private (LDP) サンプルのみが公開されているが、'local' という用語は、各$z_i$が1つの個々の$x_i$を使って生成されることを意味する。
パワー和関数 $F_gamma = sum_k=1K p_kgamma$, $gamma > 0$ を $K, n の関数として推定する二次リスクの挙動を記述する。
論文 参考訳(メタデータ) (2021-07-08T16:11:10Z) - Optimal Sub-Gaussian Mean Estimation in $\mathbb{R}$ [5.457150493905064]
ガウス下収束を考慮した新しい推定器を提案する。
我々の推定器はその分散に関する事前の知識を必要としない。
我々の推定器の構成と分析は、他の問題に一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-11-17T02:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。