論文の概要: Your representations are in the network: composable and parallel
adaptation for large scale models
- arxiv url: http://arxiv.org/abs/2303.04105v2
- Date: Tue, 31 Oct 2023 06:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:42:37.601397
- Title: Your representations are in the network: composable and parallel
adaptation for large scale models
- Title(参考訳): あなたの表現はネットワークの中にある:大規模モデルに対する構成可能および並列適応
- Authors: Yonatan Dukler, Alessandro Achille, Hao Yang, Varsha Vivek, Luca
Zancato, Benjamin Bowman, Avinash Ravichandran, Charless Fowlkes, Ashwin
Swaminathan, Stefano Soatto
- Abstract要約: InCAは、事前訓練されたモデルの任意のアクティベーション層にクロスタッチするトランスファー学習の軽量な方法である。
InCAは,1つのトップスコーリングアダプタを選択しても,フル微調整に匹敵する性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 90.26965623489157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose InCA, a lightweight method for transfer learning that
cross-attends to any activation layer of a pre-trained model. During training,
InCA uses a single forward pass to extract multiple activations, which are
passed to external cross-attention adapters, trained anew and combined or
selected for downstream tasks. We show that, even when selecting a single
top-scoring adapter, InCA achieves performance comparable to full fine-tuning,
at a cost comparable to fine-tuning just the last layer. For example, with a
cross-attention probe 1.3% the size of a pre-trained ViT-L/16 model, we achieve
performance within 0.2% of the full fine-tuning paragon at a computational
training cost of 51% of the baseline, on average across 11 downstream
classification. Unlike other forms of efficient adaptation, InCA does not
require backpropagating through the pre-trained model, thus leaving its
execution unaltered at both training and inference. The versatility of InCA is
best illustrated in fine-grained tasks, which may require accessing information
absent in the last layer but accessible in intermediate layer activations.
Since the backbone is fixed, InCA allows parallel ensembling as well as
parallel execution of multiple tasks. InCA achieves state-of-the-art
performance in the ImageNet-to-Sketch multi-task benchmark.
- Abstract(参考訳): 本稿では,事前学習モデルの任意のアクティベーション層にクロスタッチする,軽量なトランスファー学習手法であるincaを提案する。
トレーニング中、InCAは単一のフォワードパスを使用して複数のアクティベーションを抽出し、外部のクロスアテンションアダプタに渡され、新たなトレーニングと組み合わせ、あるいは下流タスクのために選択される。
InCAは1つのトップスコーリングアダプタを選択しても、最終層のみの微調整に匹敵するコストで、完全な微調整に匹敵するパフォーマンスを達成する。
例えば、事前訓練されたViT-L/16モデルの1.3%の大きさのクロスアテンションプローブを用いて、平均11下流の分類において、ベースラインの51%の計算訓練コストでフル微調整パラゴンの0.2%以内のパフォーマンスを達成する。
他の効率的な適応形式とは異なり、InCAは事前訓練されたモデルを通してバックプロパゲートを必要としないため、トレーニングと推論の両方でその実行は変更されない。
InCAの汎用性は、最終層にないが中間層アクティベーションでアクセス可能な情報にアクセスする必要がある、きめ細かいタスクにおいて最もよく示される。
バックボーンが固定されているため、InCAは並列アンサンブルと複数のタスクの並列実行を可能にする。
InCAはImageNet-to-Sketchマルチタスクベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。