Fugu-MT 論文翻訳(概要): DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding

論文の概要: DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding

arxiv url: http://arxiv.org/abs/2405.06217v2
Date: Sat, 8 Jun 2024 10:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:04:39.285082
Title: DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding
Title（参考訳）: DARA: 視覚的グラウンド化のためのパラメータ効率調整のためのドメインおよびリレーショナルアウェアアダプタ
Authors: Ting Liu, Xuyang Liu, Siteng Huang, Honggang Chen, Quanjun Yin, Long Qin, Donglin Wang, Yue Hu,
Abstract要約: ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。近年のVGモデルの大規模化により、性能は大幅に向上したが、微調整時の計算コストにも大きな負担がかかった。本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。具体的には、subderlinetextbfDomain-aware underlinetextbfAdapからなる新しいPETL法であるtextbfDARAを提案する。
参考スコア（独自算出の注目度）: 35.953589029502545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual grounding (VG) is a challenging task to localize an object in an image based on a textual description. Recent surge in the scale of VG models has substantially improved performance, but also introduced a significant burden on computational costs during fine-tuning. In this paper, we explore applying parameter-efficient transfer learning (PETL) to efficiently transfer the pre-trained vision-language knowledge to VG. Specifically, we propose \textbf{DARA}, a novel PETL method comprising \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) and \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) for VG. DA Adapters first transfer intra-modality representations to be more fine-grained for the VG domain. Then RA Adapters share weights to bridge the relation between two modalities, improving spatial reasoning. Empirical results on widely-used benchmarks demonstrate that DARA achieves the best accuracy while saving numerous updated parameters compared to the full fine-tuning and other PETL methods. Notably, with only \textbf{2.13\%} tunable backbone parameters, DARA improves average accuracy by \textbf{0.81\%} across the three benchmarks compared to the baseline model. Our code is available at \url{https://github.com/liuting20/DARA}.
Abstract（参考訳）: ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。近年のVGモデルの大規模化により性能は大幅に向上したが、微調整時の計算コストに大きな負担がかかった。本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。具体的には、VG 用 \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) と \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) からなる新しいPETL法である \textbf{DARA} を提案する。 DAアダプタは最初にモダリティ内表現を転送し、VGドメインをよりきめ細かいものにする。次に、RAアダプタは2つのモード間の関係をブリッジするために重みを共有し、空間的推論を改善する。広範に使用されているベンチマーク実験の結果、DARAは完全微調整や他のPETL法と比較して、多数の更新パラメータを節約しながら、最高の精度を達成していることが示された。特に、変更可能なバックボーンパラメータのみにより、DARAはベースラインモデルと比較して3つのベンチマークで平均精度を向上させる。私たちのコードは \url{https://github.com/liuting20/DARA} で利用可能です。

関連論文リスト

Improving Robustness of Foundation Models in Domain Adaptation with Soup-Adapters [0.0]
複数の独立したアダプタをトレーニングし、その出力を平均化することにより、新しいモデルの性能が向上し、個々のアダプタと比較して分散シフトに対して堅牢であることを示す。これはまた、DINOv2向けのCLIPアダプタスタイルのテクニックを探求し、この設定でCLIPと直接比較する最初の研究である。
論文参考訳（メタデータ） (2025-07-08T09:26:10Z)
Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.07879717463279]
textscDomain2Vecは任意のデータセットを複数のEmphmetaドメインの線形結合に分解する textscDomain2Vecは、最小の計算オーバーヘッドでダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに役立つ。
論文参考訳（メタデータ） (2025-06-12T17:53:51Z)
Histogram-based Parameter-efficient Tuning for Passive Sonar Classification [42.23422932643755]
本稿では,対象領域の統計を捕捉し,埋め込みを変調するHPT手法を提案する。 3つの下流受動的ソナーデータセット(ShipsEar、DeepShip、VTUAD)の実験結果から、HPTは従来のアダプタよりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-21T16:36:38Z)
Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass [109.34230156454574]
大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
論文参考訳（メタデータ） (2024-11-08T00:42:47Z)
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。 MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文参考訳（メタデータ） (2024-09-20T16:12:26Z)
Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文参考訳（メタデータ） (2024-07-04T18:21:28Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。 2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文参考訳（メタデータ） (2023-08-30T12:10:17Z)
Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文参考訳（メタデータ） (2023-07-23T17:55:24Z)
Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。 RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文参考訳（メタデータ） (2023-02-16T06:14:15Z)
Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文参考訳（メタデータ） (2022-11-07T19:35:55Z)
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。提案手法は, モデル全体の微調整性能に適合することを示した。
論文参考訳（メタデータ） (2021-12-13T17:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。