論文の概要: Sample Complexity of Transfer Learning: An Optimal Transport Approach
- arxiv url: http://arxiv.org/abs/2605.20545v1
- Date: Tue, 19 May 2026 22:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.403843
- Title: Sample Complexity of Transfer Learning: An Optimal Transport Approach
- Title(参考訳): 移動学習のサンプル複雑さ--最適輸送アプローチ
- Authors: Haoyang Cao, Xin Guo, Wenpin Tang, Guan Wang,
- Abstract要約: 本研究は, サンプル効率の観点から, 伝達学習の潜在的メリットを厳密に分析する。
データ次元$d$が3ドルより高い場合、転送学習のサンプル複雑さは$O(m-(+1)/d)$である。
対象タスクが非滑らかなモデル群に対して最適化されている場合、理論的には転送学習のサンプル効率が向上する。
- 参考スコア(独自算出の注目度): 18.537610792819176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is an essential technique for many machine learning/AI models of complex structures such as large language models and generative AI. The essence of transfer learning is to leverage knowledge from resolved source tasks for a new target task, especially when the sample size $m$ of the training data for the latter is low. In this work, we rigorously analyze the potential benefit of transfer learning in terms of sample efficiency. Specifically, taking an optimal transport viewpoint of transfer learning, we find that when the data dimension $d$ is higher than $3$, the sample complexity for transfer learning is $O(m^{-(α+1)/d})$, with $α$ indicating the smoothness of the data distribution, as opposed to the $O(m^{-p/d})$ sample complexity for direct learning with $p$ indicating the smoothness of the optimal target model. Our finding theoretically supports a better sample efficiency for transfer learning, when the target task is optimizing over a family of not-so-smooth models (i.e., highly complex networks with the possible use of non-smooth activation functions). Using image classification as an example, we numerically demonstrate the sample efficiency for transfer learning, that is, in the data hungry regime, the model performance can be significantly improved by transfer learning.
- Abstract(参考訳): トランスファーラーニングは、大きな言語モデルや生成AIのような複雑な構造の多くの機械学習/AIモデルにとって必須のテクニックである。
トランスファーラーニングの本質は、特に後者のトレーニングデータのサンプルサイズ$m$が低い場合、解決されたソースタスクからの知識を新しいターゲットタスクに活用することである。
本研究は, サンプル効率の観点から, 伝達学習の潜在的メリットを厳密に分析する。
具体的には,データ次元$d$が$$$より高ければ,データ分布の滑らかさを示す$O(m^{-(α+1)/d})$,$α$が$O(m^{-p/d})$に対して$O(m^{-p/d})$は$p$は最適なターゲットモデルの滑らかさを示す。
我々の発見は、非滑らかなモデルのファミリー(つまり非滑らかなアクティベーション関数の使用が可能な高度に複雑なネットワーク)に対して目標タスクが最適化されている場合、転送学習のためのより良いサンプル効率を理論的に支持する。
画像分類を例として,データ空腹状態下では,転送学習によりモデル性能が大幅に向上し,転送学習のサンプル効率が数値的に向上することを示した。
関連論文リスト
- Learning Multi-Indicator Weights for Data Selection: A Joint Task-Model Adaptation Framework with Efficient Proxies [50.39041754816285]
本稿では、下流タスクと特定のモデルの両方にデータ選択を併用する多変数重み学習フレームワークを提案する。
提案手法は,GSM8Kのトレーニングサンプルの30%しか使用せず,フルデータセットチューニングに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2026-05-10T17:30:16Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Fast Exact Unlearning for In-Context Learning Data for LLMs [30.06631665962119]
大規模言語モデルでは「微調整データ」を効率的に解き放つことができることを示す。
正確な文脈内学習は量子化k-meansで行うことができ、効果的に一定時間非学習操作ができることを示す。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - A Bayesian Approach to (Online) Transfer Learning: Theory and Algorithms [6.193838300896449]
本稿では,パラメトリック統計モデルを用いたベイズ的観点からの移動学習について検討する。
具体的には,移動学習問題,即時学習,オンライン学習,時変学習の3つの変種について検討する。
各問題に対して、適切な目的関数を定義し、学習性能の正確な表現または上限を提供する。
例は、小さなサンプルサイズであっても、導出した境界が正確であることを示している。
論文 参考訳(メタデータ) (2021-09-03T08:43:29Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - Probing transfer learning with a model of synthetic correlated datasets [11.53207294639557]
トランスファーラーニングはニューラルネットワークのサンプル効率を大幅に向上させることができる。
我々は、データセット間の相関をモデル化するためのフレームワークとして、合成データの解決可能なモデルを再考する。
本研究では,本モデルが実データを用いた伝達学習の多彩な特徴を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-06-09T22:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。