論文の概要: PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
- arxiv url: http://arxiv.org/abs/2402.10896v2
- Date: Sat, 1 Jun 2024 01:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:33:51.137458
- Title: PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
- Title(参考訳): PaLM2-VAdapter: プログレッシブ適応型言語モデル
- Authors: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang,
- Abstract要約: PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
- 参考スコア(独自算出の注目度): 21.45490901191175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
- Abstract(参考訳): 本稿では,凍結した視覚エンコーダと大規模言語モデル(LLM)を効果的に橋渡しできる言語モデルについて述べる。
視覚エンコーダとLCMの基本的なアーキテクチャと事前学習方法が広く研究されているが、視覚言語アダプタのアーキテクチャとトレーニング戦略は近年の成果によって大きく異なる。
我々の研究は、最先端のPerceiver Resamplerアーキテクチャを徹底的に調査し、強力なベースラインを構築しています。
しかし,認識器リサンプラーとの視覚言語アライメントは,直接監督が欠如しているため,収束が遅く,スケーラビリティが制限されている。
この問題に対処するため,我々は段階的に整列した言語モデルを視覚言語アダプタとして用いたPaLM2-VAdapterを提案する。
提案手法は, より高速な収束, 性能向上, 拡張性の向上を実証的に示す。
VQA(Visual Question Answering)と画像とビデオのキャプションタスクによる広範囲な実験により、我々のモデルは最先端の視覚的理解とマルチモーダル推論能力を示すことが示された。
特に,本手法は,最先端の大規模視覚言語モデルよりも30~70%少ないパラメータでこれらの進歩を達成し,大幅な効率向上を図っている。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。
まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。
Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文 参考訳(メタデータ) (2024-05-28T04:23:00Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - PaLI-3 Vision Language Models: Smaller, Faster, Stronger [82.6453282241224]
PaLI-3は、より小さく、より速く、より強力な視覚言語モデル(VLM)であり、10倍大きい類似のモデルと好意的に比較できる。
SigLIPベースのPaLIは、標準画像分類ベンチマークでは若干性能が劣っているものの、様々なマルチモーダルベンチマークにおいて優れた性能を示している。
論文 参考訳(メタデータ) (2023-10-13T15:45:19Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。