論文の概要: RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering
- arxiv url: http://arxiv.org/abs/2310.13120v2
- Date: Wed, 19 Jun 2024 19:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:27:34.421633
- Title: RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering
- Title(参考訳): RSAdapter:リモートセンシング型視覚質問応答に対するマルチモーダルモデルの適用
- Authors: Yuduo Wang, Pedram Ghamisi,
- Abstract要約: 本稿では,実行時間とパラメータの効率を優先するRSAdapterという新しい手法を提案する。
RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行った。
- 参考スコア(独自算出の注目度): 11.805761578275627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, with the rapid advancement of transformer models, transformer-based multimodal architectures have found wide application in various downstream tasks, including but not limited to Image Captioning, Visual Question Answering (VQA), and Image-Text Generation. However, contemporary approaches to Remote Sensing (RS) VQA often involve resource-intensive techniques, such as full fine-tuning of large models or the extraction of image-text features from pre-trained multimodal models, followed by modality fusion using decoders. These approaches demand significant computational resources and time, and a considerable number of trainable parameters are introduced. To address these challenges, we introduce a novel method known as RSAdapter, which prioritizes runtime and parameter efficiency. RSAdapter comprises two key components: the Parallel Adapter and an additional linear transformation layer inserted after each fully connected (FC) layer within the Adapter. This approach not only improves adaptation to pre-trained multimodal models but also allows the parameters of the linear transformation layer to be integrated into the preceding FC layers during inference, reducing inference costs. To demonstrate the effectiveness of RSAdapter, we conduct an extensive series of experiments using three distinct RS-VQA datasets and achieve state-of-the-art results on all three datasets. The code for RSAdapter is available online at https://github.com/Y-D-Wang/RSAdapter.
- Abstract(参考訳): 近年、トランスモデルの急速な進歩に伴い、トランスフォーマーベースのマルチモーダルアーキテクチャは、画像キャプチャ、視覚質問応答(VQA)、画像テキスト生成など、様々な下流タスクに広く応用されている。
しかしながら、RS(Remote Sensing) VQAの現代的アプローチは、大きなモデルの完全な微調整や、事前訓練されたマルチモーダルモデルからの画像テキスト特徴の抽出など、リソース集約的な手法を伴い、デコーダを用いたモダリティ融合を行うことが多い。
これらのアプローチは、かなりの計算資源と時間を必要とし、かなりの数のトレーニング可能なパラメータが導入された。
これらの課題に対処するため、我々はRSAdapterと呼ばれる新しい手法を導入し、実行時とパラメータの効率を優先する。
RSAdapterは、Parallel AdapterとAdapter内の各完全連結(FC)層に挿入された線形変換層という2つの重要なコンポーネントから構成される。
このアプローチは、事前訓練されたマルチモーダルモデルへの適応を改善するだけでなく、推論中に線形変換層のパラメータを前のFC層に統合し、推論コストを低減させる。
RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行い、3つのデータセットすべてに対して最先端の結果を得る。
RSAdapterのコードはhttps://github.com/Y-D-Wang/RSAdapter.comで公開されている。
関連論文リスト
- DAM: Dynamic Adapter Merging for Continual Video QA Learning [66.43360542692355]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing [1.491109220586182]
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:20:33Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。