論文の概要: Information-theoretic analysis for transfer learning
- arxiv url: http://arxiv.org/abs/2005.08697v2
- Date: Tue, 19 May 2020 00:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:05:16.334781
- Title: Information-theoretic analysis for transfer learning
- Title(参考訳): 伝達学習のための情報理論解析
- Authors: Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu
- Abstract要約: 本稿では,一般化誤差と転帰学習アルゴリズムの過大なリスクに関する情報理論解析を行う。
我々の結果は、おそらく予想通り、Kulback-Leiblerの発散$D(mu||mu')$が一般化誤差を特徴づける重要な役割を果たすことを示唆している。
- 参考スコア(独自算出の注目度): 5.081241420920605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning, or domain adaptation, is concerned with machine learning
problems in which training and testing data come from possibly different
distributions (denoted as $\mu$ and $\mu'$, respectively). In this work, we
give an information-theoretic analysis on the generalization error and the
excess risk of transfer learning algorithms, following a line of work initiated
by Russo and Zhou. Our results suggest, perhaps as expected, that the
Kullback-Leibler (KL) divergence $D(mu||mu')$ plays an important role in
characterizing the generalization error in the settings of domain adaptation.
Specifically, we provide generalization error upper bounds for general transfer
learning algorithms and extend the results to a specific empirical risk
minimization (ERM) algorithm where data from both distributions are available
in the training phase. We further apply the method to iterative, noisy gradient
descent algorithms, and obtain upper bounds which can be easily calculated,
only using parameters from the learning algorithms. A few illustrative examples
are provided to demonstrate the usefulness of the results. In particular, our
bound is tighter in specific classification problems than the bound derived
using Rademacher complexity.
- Abstract(参考訳): トランスファーラーニング(英: Transfer learning)またはドメイン適応(ドメイン適応)は、トレーニングデータとテストデータがおそらく異なる分布(それぞれ$\mu$と$\mu'$と表記される)から来る機械学習の問題である。
本研究では,RussoとZhouによって始められた一連の研究に続き,一般化誤差と伝達学習アルゴリズムの過大なリスクに関する情報理論解析を行う。
以上の結果から,kullback-leibler (kl) divergence $d(mu||mu')$がドメイン適応設定における一般化誤差を特徴づける上で重要な役割を果たすことが示唆された。
具体的には、一般伝達学習アルゴリズムの一般化誤差上限を提供し、その結果をトレーニングフェーズで両分布のデータが利用できる特定の経験的リスク最小化(erm)アルゴリズムに拡張する。
さらに,本手法を反復的,ノイズの多い勾配降下アルゴリズムに適用し,学習アルゴリズムからのパラメータのみを用いて容易に計算できる上限を求める。
結果の有用性を示すいくつかの例が提供されている。
特に、我々の境界はラデマッハ複雑性を用いた境界よりも特定の分類問題においてより厳密である。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Learning the Finer Things: Bayesian Structure Learning at the
Instantiation Level [0.0]
成功した機械学習手法は記憶と一般化の間のトレードオフを必要とする。
本稿では,探索的領域で学習し,一般化し,説明できる新しい確率的グラフィカルモデル構造学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-08T02:31:49Z) - Generalization Analysis for Contrastive Representation Learning [80.89690821916653]
既存の一般化誤差境界は負の例の数$k$に線形に依存する。
対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2023-02-24T01:03:56Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Learning Algorithm Generalization Error Bounds via Auxiliary Distributions [16.44492672878356]
一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。
そこで本研究では,Auxiliary Distribution Methodという新たな手法を提案する。
論文 参考訳(メタデータ) (2022-10-02T10:37:04Z) - On the Generalization for Transfer Learning: An Information-Theoretic Analysis [8.102199960821165]
一般化誤差と転帰学習アルゴリズムの過大なリスクを情報理論で解析する。
我々の結果は、おそらく予想通り、Kulback-Leibler divergenceD(mu|mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
次に、$phi$-divergence や Wasserstein 距離といった他の発散点と結びついた相互情報を一般化する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Fine-grained Generalization Analysis of Vector-valued Learning [28.722350261462463]
正規化ベクトル値学習アルゴリズムの一般化解析を,出力次元に軽度依存する境界とサンプルサイズに高速速度を提示することで開始する。
最適化と学習の相互作用を理解するために、結果を使用して、ベクトル値関数による降下の最初の境界を導出します。
副生成物として、一般凸函数の項で定義される損失関数クラスに対してラデマッハ複雑性を導出する。
論文 参考訳(メタデータ) (2021-04-29T07:57:34Z) - Scalable Vector Gaussian Information Bottleneck [19.21005180893519]
そこで我々は,エンコーダが観測の複数の記述を出力するスケーラブルな情報ボトルネックと呼ばれる問題の変動について検討する。
分布が不明な一般ソースに対する変分推論型アルゴリズムを導出し,ニューラルネットワークを用いてパラメータ化する方法を示す。
論文 参考訳(メタデータ) (2021-02-15T12:51:26Z) - Domain Adaptation: Learning Bounds and Algorithms [80.85426994513541]
本稿では,任意の損失関数を持つ適応問題に適した分布距離,差分距離を新たに導入する。
広い損失関数族に対する領域適応のための新しい一般化境界を導出する。
また、正規化に基づくアルゴリズムの大規模クラスに対する新しい適応境界も提示する。
論文 参考訳(メタデータ) (2009-02-19T18:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。