論文の概要: Characterizing and Understanding the Generalization Error of Transfer
Learning with Gibbs Algorithm
- arxiv url: http://arxiv.org/abs/2111.01635v1
- Date: Tue, 2 Nov 2021 14:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:16:15.680106
- Title: Characterizing and Understanding the Generalization Error of Transfer
Learning with Gibbs Algorithm
- Title(参考訳): gibbsアルゴリズムによる転送学習の一般化誤りの特徴化と理解
- Authors: Yuheng Bu, Gholamali Aminian, Laura Toni, Miguel Rodrigues and Gregory
Wornell
- Abstract要約: 本稿では,ギブスに基づく移動学習アルゴリズムの一般化能力に関する情報理論解析を行う。
本稿では,2段階のトランスファー学習アプローチである$alpha$-weightedERMと2段階ERMに着目した。
- 参考スコア(独自算出の注目度): 10.851348154870854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide an information-theoretic analysis of the generalization ability of
Gibbs-based transfer learning algorithms by focusing on two popular transfer
learning approaches, $\alpha$-weighted-ERM and two-stage-ERM. Our key result is
an exact characterization of the generalization behaviour using the conditional
symmetrized KL information between the output hypothesis and the target
training samples given the source samples. Our results can also be applied to
provide novel distribution-free generalization error upper bounds on these two
aforementioned Gibbs algorithms. Our approach is versatile, as it also
characterizes the generalization errors and excess risks of these two Gibbs
algorithms in the asymptotic regime, where they converge to the
$\alpha$-weighted-ERM and two-stage-ERM, respectively. Based on our theoretical
results, we show that the benefits of transfer learning can be viewed as a
bias-variance trade-off, with the bias induced by the source distribution and
the variance induced by the lack of target samples. We believe this viewpoint
can guide the choice of transfer learning algorithms in practice.
- Abstract(参考訳): 本稿では、Gibsに基づく転送学習アルゴリズムの一般化能力に関する情報理論解析を行い、2つの一般的な転送学習アプローチである$\alpha$-weighted-ERMと2段階ERMに着目した。
我々の重要な結果は、出力仮説と対象訓練サンプルとの条件付き対称性kl情報を用いた一般化行動の正確な特徴付けである。
また,これら2つのgibbsアルゴリズムに対して,新しい分布自由汎化誤差上限を与えることができる。
我々のアプローチは多様であり、これら2つのギブスアルゴリズムの漸近的状態における一般化誤差と過剰リスクを特徴付け、それぞれ$\alpha$-weighted-ERM と 2-stage-ERM に収束する。
理論的結果から, 伝達学習の利点は, ソース分布に起因したバイアスと, 対象サンプルの欠如によって引き起こされるばらつきにより, バイアス分散トレードオフと見なせることを示す。
我々は、この視点が実際に移行学習アルゴリズムの選択を導くことができると考えている。
関連論文リスト
- Understanding Transfer Learning via Mean-field Analysis [5.7150083558242075]
我々は、KL規則化された経験的リスク最小化を用いて、$alpha$-ERMとファインチューニングの2つの主要なトランスファー学習シナリオを検討する。
平均場状態における一層ニューラルネットワークを用いたトランスファーラーニングの利点を示す。
論文 参考訳(メタデータ) (2024-10-22T16:00:44Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples
using Gradients and Invariance Transformations [77.34726150561087]
本稿では,ディープニューラルネットワークにおける一般化誤差検出のための総合的アプローチを提案する。
GITは勾配情報と不変変換の利用を組み合わせる。
本実験は,各種ネットワークアーキテクチャの最先端技術と比較して,GITの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-07-05T22:04:38Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - On the Generalization for Transfer Learning: An Information-Theoretic Analysis [8.102199960821165]
一般化誤差と転帰学習アルゴリズムの過大なリスクを情報理論で解析する。
我々の結果は、おそらく予想通り、Kulback-Leibler divergenceD(mu|mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
次に、$phi$-divergence や Wasserstein 距離といった他の発散点と結びついた相互情報を一般化する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - Characterizing the Generalization Error of Gibbs Algorithm with
Symmetrized KL information [18.92529916180208]
教師付き学習アルゴリズムの一般化誤差の境界は、学習理論における最も重要な問題の1つである。
我々の主な貢献は、よく知られたギブスアルゴリズムの予測一般化誤差を正確に評価することである。
論文 参考訳(メタデータ) (2021-07-28T22:20:34Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Information-theoretic analysis for transfer learning [5.081241420920605]
本稿では,一般化誤差と転帰学習アルゴリズムの過大なリスクに関する情報理論解析を行う。
我々の結果は、おそらく予想通り、Kulback-Leiblerの発散$D(mu||mu')$が一般化誤差を特徴づける重要な役割を果たすことを示唆している。
論文 参考訳(メタデータ) (2020-05-18T13:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。