Fugu-MT 論文翻訳(概要): Information-Theoretic Bounds on Transfer Generalization Gap Based on Jensen-Shannon Divergence

論文の概要: Information-Theoretic Bounds on Transfer Generalization Gap Based on Jensen-Shannon Divergence

arxiv url: http://arxiv.org/abs/2010.09484v4
Date: Mon, 25 Jan 2021 04:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-08 01:02:43.911854
Title: Information-Theoretic Bounds on Transfer Generalization Gap Based on Jensen-Shannon Divergence
Title（参考訳）: jensen-shannon 発散に基づく転送汎化ギャップの情報理論的境界
Authors: Sharu Theresa Jose, Osvaldo Simeone
Abstract要約: トランスファーラーニングでは、異なるデータ分布からデータセットをトレーニングし、テストする。本研究は, 平均移動一般化ギャップに関する新しい情報理論上界を示す。
参考スコア（独自算出の注目度）: 42.275148861039895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In transfer learning, training and testing data sets are drawn from different data distributions. The transfer generalization gap is the difference between the population loss on the target data distribution and the training loss. The training data set generally includes data drawn from both source and target distributions. This work presents novel information-theoretic upper bounds on the average transfer generalization gap that capture $(i)$ the domain shift between the target data distribution $P'_Z$ and the source distribution $P_Z$ through a two-parameter family of generalized $(\alpha_1,\alpha_2)$-Jensen-Shannon (JS) divergences; and $(ii)$ the sensitivity of the transfer learner output $W$ to each individual sample of the data set $Z_i$ via the mutual information $I(W;Z_i)$. For $\alpha_1 \in (0,1)$, the $(\alpha_1,\alpha_2)$-JS divergence can be bounded even when the support of $P_Z$ is not included in that of $P'_Z$. This contrasts the Kullback-Leibler (KL) divergence $D_{KL}(P_Z||P'_Z)$-based bounds of Wu et al. [1], which are vacuous under this assumption. Moreover, the obtained bounds hold for unbounded loss functions with bounded cumulant generating functions, unlike the $\phi$-divergence based bound of Wu et al. [1]. We also obtain new upper bounds on the average transfer excess risk in terms of the $(\alpha_1,\alpha_2)$-JS divergence for empirical weighted risk minimization (EWRM), which minimizes the weighted average training losses over source and target data sets. Finally, we provide a numerical example to illustrate the merits of the introduced bounds.
Abstract（参考訳）: 転送学習では、異なるデータ分布からデータセットをトレーニングおよびテストする。転送一般化ギャップは、対象データ分布における人口損失とトレーニング損失との差である。トレーニングデータセットは一般的に、ソースとターゲットの両方のディストリビューションから引き出されたデータを含む。本研究は,$ をキャプチャする平均転送汎化ギャップに関する新しい情報理論上界を提案する。 (i)$ 対象データ分散 $p'_z$ とソース分散 $p_z$ の間の領域シフト一般化された $(\alpha_1,\alpha_2)$-jensen-shannon (js) の2パラメータファミリーと $ (ii)転送学習者の感度$$W$は、相互情報$I(W;Z_i)$を介してデータセットの各サンプルに対して$Z_i$となる。 $\alpha_1 \in (0,1)$の場合、$(\alpha_1,\alpha_2)$-JSの分岐は、$P'_Z$のサポートが$P'_Z$に含まれていない場合でも境界づけられる。これはkullback-leibler (kl) divergence $d_{kl}(p_z||p'_z)$-based bounds of wu et alと対照的である。 [1]であり、この仮定では空白である。さらに、得られた境界は、wuなどの$\phi$-divergenceベースの境界とは異なり、有界累積生成関数を持つ非有界損失関数に対して保持される。 [1]. また,平均伝達過剰リスクに対する新たな上限として,経験的重み付きリスク最小化 (ewrm) に対する$(\alpha_1,\alpha_2)$-js の発散により,ソースおよびターゲットデータセットに対する重み付き平均トレーニング損失を最小化する。最後に、導入した境界の利点を説明する数値的な例を示す。

関連論文リスト

Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文参考訳（メタデータ） (2025-06-30T13:27:39Z)
Bounds on the Excess Minimum Risk via Generalized Information Divergence Measures [8.343111115184591]
有限次元のランダムベクトルが$Y$、$X$、および$Z$を与えられたとき、過剰な最小リスクの上限を導出する。過大な最小リスクは、$Y$を$X$から$Z$から推定する最小損失の差として定義される。我々は、Gy"orfi et al.の相互情報に基づく境界を一般化する境界の族を示す。
論文参考訳（メタデータ） (2025-05-30T01:28:18Z)
Sum-of-squares lower bounds for Non-Gaussian Component Analysis [33.80749804695003]
非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
論文参考訳（メタデータ） (2024-10-28T18:19:13Z)
Gradual Domain Adaptation via Manifold-Constrained Distributionally Robust Optimization [0.4732176352681218]
本稿では、多様体制約データ分布のクラスにおける段階的領域適応の課題に対処する。本稿では,適応的なワッサースタイン半径を持つ分布ロバスト最適化(DRO)を基礎とした手法を提案する。我々のバウンダリは、新たに導入されたそれとの互換性尺度に依存しており、シーケンスに沿ったエラー伝搬のダイナミクスを完全に特徴付けています。
論文参考訳（メタデータ） (2024-10-17T22:07:25Z)
Distribution-Aware Mean Estimation under User-level Local Differential Privacy [5.267844649650687]
ユーザレベルのローカル差分プライバシに基づく平均推定の問題について考察する。分布認識平均推定アルゴリズムに基づいて、平均推定タスクに対して、最悪の場合のリスクに対して、$M$依存上界を確立する。
論文参考訳（メタデータ） (2024-10-12T11:57:52Z)
Bounds on $L_p$ Errors in Density Ratio Estimation via $f$-Divergence Loss Functions [0.0]
密度比推定(DRE)は2つの確率分布の関係を同定する基礎的な機械学習手法である。 $f$-divergence損失関数は、$f$-divergenceの変分表現から派生したもので、DREで最先端の結果を達成するために一般的に使用される。本研究では,$L_p$エラーの上下境界を導出することにより,$f$-divergence損失関数を用いたDREの新しい視点を示す。
論文参考訳（メタデータ） (2024-10-02T13:05:09Z)
Statistical Error Bounds for GANs with Nonlinear Objective Functionals [5.022028859839544]
有限サンプル濃度の不等式という形で、$f$と$Gamma$の一般クラスに対して$(f,Gamma)$-GANsの統計的誤差境界を導出する。結果は、$(f,Gamma)$-GANsの統計的一貫性を証明し、適切な極限でIMM-GANsの既知の結果に還元する。
論文参考訳（メタデータ） (2024-06-24T17:42:03Z)
Statistical Efficiency of Distributional Temporal Difference Learning and Freedman's Inequality in Hilbert Spaces [24.03281329962804]
本稿では,分布時間差学習における非漸近的統計率に着目した。生成モデルを用いたNTDの場合、$tildeO(varepsilon-2 mu_pi,min-1 (1-gamma)-3+t_mixmu_pi,min-1 (1-gamma)-1)$サンプル複雑性境界はワッサーシュタイン距離が1ドルである場合に必要である。我々は新しいフリードマンの不平等を樹立する
論文参考訳（メタデータ） (2024-03-09T06:19:53Z)
Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。また、Acharyaなどのアルゴリズムの改良版も提供します。
論文参考訳（メタデータ） (2023-06-20T06:13:56Z)
How Does Pseudo-Labeling Affect the Generalization Error of the Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文参考訳（メタデータ） (2022-10-15T04:11:56Z)
Learning Algorithm Generalization Error Bounds via Auxiliary Distributions [16.44492672878356]
一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。そこで本研究では,Auxiliary Distribution Methodという新たな手法を提案する。
論文参考訳（メタデータ） (2022-10-02T10:37:04Z)
The Power and Limitation of Pretraining-Finetuning for Linear Regression under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文参考訳（メタデータ） (2022-08-03T05:59:49Z)
Non-Gaussian Component Analysis via Lattice Basis Reduction [56.98280399449707]
非ガウス成分分析(NGCA)は分布学習問題である。我々は,NGCA に対して,$A$ が離散的あるいはほぼ離散的であるような効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-12-16T18:38:02Z)
A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文参考訳（メタデータ） (2020-06-09T02:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。