論文の概要: Language Grounded QFormer for Efficient Vision Language Understanding
- arxiv url: http://arxiv.org/abs/2311.07449v1
- Date: Mon, 13 Nov 2023 16:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:49:46.462003
- Title: Language Grounded QFormer for Efficient Vision Language Understanding
- Title(参考訳): 効率的な視覚言語理解のための言語基盤QFormer
- Authors: Moulik Choraria, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav
R. Varshney
- Abstract要約: BLIP-2モデルで提案したクエリトランスフォーマー(QFormer)アプローチから着想を得た。
より効率的なQFormerベースの視覚言語アライメント法を提案する。
- 参考スコア(独自算出の注目度): 25.432918254523344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretraining and instruction tuning have been successful for
training general-purpose language models with broad competencies. However,
extending to general-purpose vision-language models is challenging due to the
distributional diversity in visual inputs. A recent line of work explores
vision-language instruction tuning, taking inspiration from the Query
Transformer (QFormer) approach proposed in BLIP-2 models for bridging frozen
modalities. However, these approaches rely heavily on large-scale multi-modal
pretraining for representation learning before eventual finetuning, incurring a
huge computational overhead, poor scaling, and limited accessibility. To that
end, we propose a more efficient method for QFormer-based vision-language
alignment and demonstrate the effectiveness of our strategy compared to
existing baselines in improving the efficiency of vision-language pretraining.
- Abstract(参考訳): 大規模事前学習と命令チューニングは、幅広い能力を持つ汎用言語モデルの訓練に成功している。
しかし、視覚入力の分布的多様性のため、汎用視覚言語モデルへの拡張は困難である。
最近の研究は、凍結したモダリティをブリッジするためのBLIP-2モデルで提案されたQuery Transformer (QFormer) アプローチからインスピレーションを得て、視覚言語による命令チューニングを探求している。
しかし、これらのアプローチは、最終的な微調整の前に表現学習のための大規模なマルチモーダルプリトレーニングに重きを置き、巨大な計算オーバーヘッド、スケーリングの貧弱さ、アクセシビリティの制限を伴います。
そこで本研究では,QFormerに基づく視覚言語アライメントのより効率的な手法を提案し,既存のベースラインと比較して,視覚言語事前学習の効率を向上させるための戦略の有効性を実証する。
関連論文リスト
- FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model [82.93634081255942]
本稿では,MLLMが低コストを維持しつつ高い精度を達成できるビジョン言語コネクタを提案する。
まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。
Anchor former (AcFormer) は、事前学習中に得られた視覚的アンカーから得られる豊富な事前知識を活用するために設計された、新しい視覚言語コネクタである。
論文 参考訳(メタデータ) (2024-05-28T04:23:00Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。