論文の概要: DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding
- arxiv url: http://arxiv.org/abs/2405.06217v2
- Date: Sat, 8 Jun 2024 10:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:04:39.285082
- Title: DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding
- Title(参考訳): DARA: 視覚的グラウンド化のためのパラメータ効率調整のためのドメインおよびリレーショナルアウェアアダプタ
- Authors: Ting Liu, Xuyang Liu, Siteng Huang, Honggang Chen, Quanjun Yin, Long Qin, Donglin Wang, Yue Hu,
- Abstract要約: ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。
近年のVGモデルの大規模化により、性能は大幅に向上したが、微調整時の計算コストにも大きな負担がかかった。
本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。
具体的には、subderlinetextbfDomain-aware underlinetextbfAdapからなる新しいPETL法であるtextbfDARAを提案する。
- 参考スコア(独自算出の注目度): 35.953589029502545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding (VG) is a challenging task to localize an object in an image based on a textual description. Recent surge in the scale of VG models has substantially improved performance, but also introduced a significant burden on computational costs during fine-tuning. In this paper, we explore applying parameter-efficient transfer learning (PETL) to efficiently transfer the pre-trained vision-language knowledge to VG. Specifically, we propose \textbf{DARA}, a novel PETL method comprising \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) and \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) for VG. DA Adapters first transfer intra-modality representations to be more fine-grained for the VG domain. Then RA Adapters share weights to bridge the relation between two modalities, improving spatial reasoning. Empirical results on widely-used benchmarks demonstrate that DARA achieves the best accuracy while saving numerous updated parameters compared to the full fine-tuning and other PETL methods. Notably, with only \textbf{2.13\%} tunable backbone parameters, DARA improves average accuracy by \textbf{0.81\%} across the three benchmarks compared to the baseline model. Our code is available at \url{https://github.com/liuting20/DARA}.
- Abstract(参考訳): ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。
近年のVGモデルの大規模化により性能は大幅に向上したが、微調整時の計算コストに大きな負担がかかった。
本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。
具体的には、VG 用 \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) と \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) からなる新しいPETL法である \textbf{DARA} を提案する。
DAアダプタは最初にモダリティ内表現を転送し、VGドメインをよりきめ細かいものにする。
次に、RAアダプタは2つのモード間の関係をブリッジするために重みを共有し、空間的推論を改善する。
広範に使用されているベンチマーク実験の結果、DARAは完全微調整や他のPETL法と比較して、多数の更新パラメータを節約しながら、最高の精度を達成していることが示された。
特に、変更可能なバックボーンパラメータのみにより、DARAはベースラインモデルと比較して3つのベンチマークで平均精度を向上させる。
私たちのコードは \url{https://github.com/liuting20/DARA} で利用可能です。
関連論文リスト
- MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。
既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。
本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。
MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文 参考訳(メタデータ) (2024-09-20T16:12:26Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。