論文の概要: Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement
- arxiv url: http://arxiv.org/abs/2010.08532v2
- Date: Fri, 25 Feb 2022 11:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:22:22.591506
- Title: Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement
- Title(参考訳): 目標認識表現による正確な知識伝達に向けて
- Authors: Xingjian Li, Di Hu, Xuhong Li, Haoyi Xiong, Zhi Ye, Zhipeng Wang,
Chengzhong Xu, Dejing Dou
- Abstract要約: 本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
- 参考スコア(独自算出の注目度): 56.40587594647692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning deep neural networks pre-trained on large scale datasets is one
of the most practical transfer learning paradigm given limited quantity of
training samples. To obtain better generalization, using the starting point as
the reference (SPAR), either through weights or features, has been successfully
applied to transfer learning as a regularizer. However, due to the domain
discrepancy between the source and target task, there exists obvious risk of
negative transfer in a straightforward manner of knowledge preserving. In this
paper, we propose a novel transfer learning algorithm, introducing the idea of
Target-awareness REpresentation Disentanglement (TRED), where the relevant
knowledge with respect to the target task is disentangled from the original
source model and used as a regularizer during fine-tuning the target model.
Specifically, we design two alternative methods, maximizing the Maximum Mean
Discrepancy (Max-MMD) and minimizing the mutual information (Min-MI), for the
representation disentanglement. Experiments on various real world datasets show
that our method stably improves the standard fine-tuning by more than 2% in
average. TRED also outperforms related state-of-the-art transfer learning
regularizers such as L2-SP, AT, DELTA, and BSS.
- Abstract(参考訳): 大規模データセットで事前トレーニングされた微調整深層ニューラルネットワークは、限られた量のトレーニングサンプルを与えられた最も実用的な移行学習パラダイムの1つである。
重みまたは特徴を通して、出発点を基準(spar)として用いることにより、より一般化し、正規化として転校学習に成功している。
しかし、ソースとターゲットタスク間のドメインの相違により、簡単な知識保存の方法において、負の転送のリスクは明らかである。
本稿では,対象タスクに対する関連知識を元のソースモデルから切り離し,ターゲットモデルの微調整時に正規化子として使用する,TRED(Target-Awareness Representation Disentanglement)の概念を導入する,新しい伝達学習アルゴリズムを提案する。
具体的には,最大平均離散度(Max-MMD)の最大化と相互情報(Min-MI)の最小化という2つの代替手法を設計する。
様々な実世界のデータセットを用いた実験により,本手法は平均で2%以上の微調整を安定的に改善することを示した。
TREDはまた、L2-SP、AT、DELTA、BSSといった関連する最先端の伝達学習レギュレータよりも優れている。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Auto-Transfer: Learning to Route Transferrable Representations [77.30427535329571]
本稿では,適切なターゲット表現にソース表現をルートする方法を自動学習する,新しい対向型マルチアームバンディット手法を提案する。
最先端の知識伝達手法と比較すると,5%以上の精度向上が期待できる。
論文 参考訳(メタデータ) (2022-02-02T13:09:27Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - The Common Intuition to Transfer Learning Can Win or Lose: Case Studies for Linear Regression [26.5147705530439]
本稿では,学習対象パラメータと学習対象パラメータとの距離を正規化した線形回帰最適化として,対象タスクへの伝達学習アプローチを定義する。
十分関連するタスクに対して、最適に調整された転送学習手法が最適に調整されたリッジ回帰法より優れていることを示す。
論文 参考訳(メタデータ) (2021-03-09T18:46:01Z) - Meta-learning Transferable Representations with a Single Target Domain [46.83481356352768]
微調整とジョイントトレーニングは、下流タスクの精度を常に向上させるわけではない。
伝達可能な特徴を学習するためのメタ表現学習(MeRLin)を提案する。
MeRLinは、様々な実世界のビジョンとNLP転送学習ベンチマークにおいて、従来の最先端のトランスファー学習アルゴリズムを実証的に上回っている。
論文 参考訳(メタデータ) (2020-11-03T01:57:37Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Minimax Lower Bounds for Transfer Learning with Linear and One-hidden
Layer Neural Networks [27.44348371795822]
転送学習の限界を特徴付けるための統計的ミニマックスフレームワークを開発する。
ラベル付きソース数とターゲットデータの関数として,任意のアルゴリズムで達成可能なターゲット一般化誤差に対して,低いバウンドを導出する。
論文 参考訳(メタデータ) (2020-06-16T22:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。