論文の概要: Semantically Grounded QFormer for Efficient Vision Language Understanding
- arxiv url: http://arxiv.org/abs/2311.07449v2
- Date: Mon, 16 Dec 2024 19:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:14.255437
- Title: Semantically Grounded QFormer for Efficient Vision Language Understanding
- Title(参考訳): 効率的な視覚言語理解のための意味的基底QFormer
- Authors: Moulik Choraria, Xinbo Wu, Sourya Basu, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav R. Varshney,
- Abstract要約: 近年,汎用視覚言語モデル (VLM) が注目されている。
非常に人気のある作業の1つは、QFormerと呼ばれるトレーニング可能なモジュールを使用して、視覚表現を言語にブリッジすることで、凍結したユニモーダルモデルを利用する。
我々はQFormerベースの視覚言語アライメントのためのより効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.503864963144956
- License:
- Abstract: General purpose Vision Language Models (VLMs) have received tremendous interest in recent years, owing to their ability to learn rich vision-language correlations as well as their broad zero-shot competencies. One immensely popular line of work utilizes frozen unimodal models, by bridging vision representations to language using a trainable module called the QFormer. However, this method relies heavily on large-scale multimodal pretraining with huge computational overheads. To that end, we propose a more efficient framework for QFormer-based vision-language alignment. Our key idea relies on the observation that QFormer latents correspond more strongly to the frozen LLM's intermediate latent space. Consequently, instead of using QFormer latents as inputs to the LLM, we alter the framework by using the latents to directly condition the LLM latent space for image-to-text generation. We demonstrate the effectiveness of our approach against existing baselines in improving the efficiency of vision-language pretraining.
- Abstract(参考訳): 汎用視覚言語モデル(VLM)は、リッチな視覚言語相関学習能力と幅広いゼロショット能力から、近年大きな関心を集めている。
非常に人気のある作業の1つは、QFormerと呼ばれるトレーニング可能なモジュールを使用して、視覚表現を言語にブリッジすることで、凍結したユニモーダルモデルを利用する。
しかし,この手法は計算オーバーヘッドが大きい大規模マルチモーダル事前学習に大きく依存している。
そこで本研究では,QFormerに基づく視覚言語アライメントのための,より効率的なフレームワークを提案する。
我々のキーとなる考え方は、QFormer 潜伏空間が凍結 LLM の中間潜伏空間とより強く一致するという観察に依存している。
したがって、LLMへの入力としてQFormerラテントを使う代わりに、画像からテキストへの生成にLLMラテント空間を直接条件付けるために、ラテントを用いてフレームワークを変更する。
本稿では,既存のベースラインに対するアプローチの有効性を示す。
関連論文リスト
- FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。
まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。
Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文 参考訳(メタデータ) (2024-05-28T04:23:00Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。