論文の概要: PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong
Vision-language Adapter
- arxiv url: http://arxiv.org/abs/2402.10896v1
- Date: Fri, 16 Feb 2024 18:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:41:06.469848
- Title: PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong
Vision-language Adapter
- Title(参考訳): palm2-vadapter: プログレッシブアライン言語モデルによる強力なビジョン言語アダプタ
- Authors: Junfei Xiao and Zheng Xu and Alan Yuille and Shen Yan and Boyu Wang
- Abstract要約: PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
- 参考スコア(独自算出の注目度): 23.01781232930311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.
- Abstract(参考訳): 本稿では,凍結した視覚エンコーダと大規模言語モデル(LLM)を効果的にブリッジできる言語モデルについて述べる。
視覚エンコーダとLCMの基本的なアーキテクチャと事前学習方法が広く研究されているが、視覚言語アダプタのアーキテクチャとトレーニング戦略は近年の成果によって大きく異なる。
我々の研究は、最先端のPerceiver Resamplerアーキテクチャを徹底的に調査し、強力なベースラインを構築しています。
しかし,視覚言語アライメントとperceiver resamplerは,直接監督の欠如により収束が遅く,拡張性が制限されている。
この問題に対処するために,視覚言語アダプタとして段階的に整列した言語モデルを用いたPaLM2-VAdapterを提案する。
perceiver resamplerの強力なベースラインと比較すると、この手法は経験的に、より高速な収束、高いパフォーマンス、より強力なスケーラビリティを示す。
様々な視覚質問応答(vqa)と画像とビデオのキャプションタスクにまたがる広範な実験により,本モデルが最先端の視覚理解とマルチモーダル推論能力を示すことが示された。
特に,本手法は,最先端の視覚言語モデルよりも30~70%少ないパラメータでこれらの進歩を達成し,大幅な効率向上を実現している。
関連論文リスト
- APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - PaLI-3 Vision Language Models: Smaller, Faster, Stronger [82.6453282241224]
PaLI-3は、より小さく、より速く、より強力な視覚言語モデル(VLM)であり、10倍大きい類似のモデルと好意的に比較できる。
SigLIPベースのPaLIは、標準画像分類ベンチマークでは若干性能が劣っているものの、様々なマルチモーダルベンチマークにおいて優れた性能を示している。
論文 参考訳(メタデータ) (2023-10-13T15:45:19Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。