論文の概要: VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language
Navigation
- arxiv url: http://arxiv.org/abs/2308.10172v1
- Date: Sun, 20 Aug 2023 05:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:19:42.911769
- Title: VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language
Navigation
- Title(参考訳): VLN-PETL:視覚・言語ナビゲーションのためのパラメータ効率の良い伝達学習
- Authors: Yanyuan Qiao, Zheng Yu, Qi Wu
- Abstract要約: 本稿では,VLNタスクのためのPETL法を初めて検討し,VLN固有のPETL法であるVLN-PETLを提案する。
VLN-PETLは、完全な微調整に匹敵するあるいはさらに優れた性能を達成し、有望なマージンを持つ他のPETL法よりも優れる。
- 参考スコア(独自算出の注目度): 23.22586831122625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of the Vision-and-Language Navigation~(VLN) tasks has
witnessed rapid progress recently thanks to the use of large pre-trained
vision-and-language models. However, full fine-tuning the pre-trained model for
every downstream VLN task is becoming costly due to the considerable model
size. Recent research hotspot of Parameter-Efficient Transfer Learning (PETL)
shows great potential in efficiently tuning large pre-trained models for the
common CV and NLP tasks, which exploits the most of the representation
knowledge implied in the pre-trained model while only tunes a minimal set of
parameters. However, simply utilizing existing PETL methods for the more
challenging VLN tasks may bring non-trivial degeneration to the performance.
Therefore, we present the first study to explore PETL methods for VLN tasks and
propose a VLN-specific PETL method named VLN-PETL. Specifically, we design two
PETL modules: Historical Interaction Booster (HIB) and Cross-modal Interaction
Booster (CIB). Then we combine these two modules with several existing PETL
methods as the integrated VLN-PETL. Extensive experimental results on four
mainstream VLN tasks (R2R, REVERIE, NDH, RxR) demonstrate the effectiveness of
our proposed VLN-PETL, where VLN-PETL achieves comparable or even better
performance to full fine-tuning and outperforms other PETL methods with
promising margins.
- Abstract(参考訳): Vision-and-Language Navigation~(VLN)タスクのパフォーマンスは、大規模な事前学習された視覚・言語モデルを使用することで、最近急速に進歩している。
しかしながら、下流のVLNタスクごとに事前訓練されたモデルの完全な微調整は、相当なモデルサイズのためにコストがかかる。
近年のPETL(パラメータ効率変換学習)のホットスポットは,パラメータの最小セットのみをチューニングしながら,事前学習モデルに入力される表現知識のほとんどを利用する共通CVおよびNLPタスクに対して,大規模な事前学習モデルを効率的にチューニングする大きな可能性を示している。
しかし、より困難なVLNタスクに既存のPETLメソッドを単純に利用すれば、パフォーマンスに非自明な劣化をもたらす可能性がある。
そこで本研究では,VLNタスクのためのPETL法を初めて検討し,VLN固有のPETL法であるVLN-PETLを提案する。
具体的には,ヒストリカル・インタラクション・ブースター (HIB) とクロスモーダル・インタラクション・ブースター (CIB) の2つのPETLモジュールを設計する。
次に、これらの2つのモジュールを、VLN-PETLとして既存のPETLメソッドと組み合わせる。
4つの主要なVLNタスク(R2R, REVERIE, NDH, RxR)の大規模な実験結果から,VLN-PETLと同等あるいはそれ以上の性能を達成し,他のPETL法よりも有望なマージンで優れることを示す。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Unsupervised Domain Adaption Harnessing Vision-Language Pre-training [4.327763441385371]
本稿では、教師なしドメイン適応(UDA)におけるビジョンランゲージ事前学習モデルのパワーを活用することに焦点を当てる。
クロスモーダル知識蒸留(CMKD)と呼ばれる新しい手法を提案する。
提案手法は,従来のベンチマーク手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-05T02:37:59Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Scaling Vision-and-Language Navigation With Offline RL [35.624579441774685]
本稿では,VLN-ORLの新しい問題設定について紹介する。
本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,単純かつ効果的な報酬条件付きアプローチを提案する。
本実験は,提案手法が性能改善につながることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T11:13:20Z) - Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [27.930351465266515]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。