論文の概要: Adaptive Transfer Learning: a simple but effective transfer learning
- arxiv url: http://arxiv.org/abs/2111.10937v1
- Date: Mon, 22 Nov 2021 01:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:03:44.626050
- Title: Adaptive Transfer Learning: a simple but effective transfer learning
- Title(参考訳): アダプティブトランスファーラーニング : シンプルだが効果的なトランスファーラーニング
- Authors: Jung H Lee, Henry J Kvinge, Scott Howland, Zachary New, John Buckheit,
Lauren A. Phillips, Elliott Skomski, Jessica Hibler, Courtney D. Corley,
Nathan O. Hodas
- Abstract要約: アダプティブトランスファーラーニング(ATL)は、TLのための特徴マップの最適セットを選択し、数ショットの学習環境でテストすることができる。
我々の経験的評価は、ATLがDLモデルをより効率的に学習するのに役立つことを示唆している。
- 参考スコア(独自算出の注目度): 0.874936920642865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning (TL) leverages previously obtained knowledge to learn new
tasks efficiently and has been used to train deep learning (DL) models with
limited amount of data. When TL is applied to DL, pretrained (teacher) models
are fine-tuned to build domain specific (student) models. This fine-tuning
relies on the fact that DL model can be decomposed to classifiers and feature
extractors, and a line of studies showed that the same feature extractors can
be used to train classifiers on multiple tasks. Furthermore, recent studies
proposed multiple algorithms that can fine-tune teacher models' feature
extractors to train student models more efficiently. We note that regardless of
the fine-tuning of feature extractors, the classifiers of student models are
trained with final outputs of feature extractors (i.e., the outputs of
penultimate layers). However, a recent study suggested that feature maps in
ResNets across layers could be functionally equivalent, raising the possibility
that feature maps inside the feature extractors can also be used to train
student models' classifiers. Inspired by this study, we tested if feature maps
in the hidden layers of the teacher models can be used to improve the student
models' accuracy (i.e., TL's efficiency). Specifically, we developed 'adaptive
transfer learning (ATL)', which can choose an optimal set of feature maps for
TL, and tested it in the few-shot learning setting. Our empirical evaluations
suggest that ATL can help DL models learn more efficiently, especially when
available examples are limited.
- Abstract(参考訳): トランスファーラーニング(TL)は、これまで得られた知識を活用して、新しいタスクを効率的に学習し、限られた量のデータでディープラーニング(DL)モデルをトレーニングするために使われてきた。
TLがDLに適用されると、事前訓練された(教師)モデルはドメイン固有(学生)モデルを構築するために微調整される。
この微調整は、DLモデルを分類器と特徴抽出器に分解できるという事実に依存しており、複数のタスクで同じ特徴抽出器を用いて分類器の訓練を行うことが示されている。
さらに,近年の研究では,教師モデルの特徴抽出器を微調整し,生徒モデルをより効率的に学習できる複数のアルゴリズムが提案されている。
特徴抽出器の微調整にかかわらず、学生モデルの分類器は特徴抽出器の最終的な出力(すなわち、有極層の出力)で訓練される。
しかし、最近の研究では、レイヤ間のResNetsの機能マップは機能的に同等であり、特徴抽出器内の機能マップが学生モデルの分類器の訓練にも使える可能性が示唆されている。
本研究では,教師モデルの隠れ層における特徴マップを用いて,生徒モデルの精度(TLの効率)を向上させることができるかを検討した。
具体的には,tlの特徴マップの最適なセットを選択できる「適応伝達学習(atl)」を開発し,少数の学習環境でテストした。
実験により,ATLがDLモデルをより効率的に学習できることが示唆された。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks [0.0]
我々は,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しい種類のGLiNERモデルを導入する。
我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。
論文 参考訳(メタデータ) (2024-06-14T13:54:29Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - On the Steganographic Capacity of Selected Learning Models [1.0640226829362012]
本稿では,学習モデルの聴取能力について考察する。
幅広いモデルに対して、上書き可能な低次ビットの数を決定する。
テスト対象モデルのうち, LR実験では7.04KB, InceptionV3では44.74MBであった。
論文 参考訳(メタデータ) (2023-08-29T10:41:34Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。