論文の概要: Bridging Vision and Language Spaces with Assignment Prediction
- arxiv url: http://arxiv.org/abs/2404.09632v1
- Date: Mon, 15 Apr 2024 10:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:20:54.980128
- Title: Bridging Vision and Language Spaces with Assignment Prediction
- Title(参考訳): 割り当て予測によるブリッジングビジョンと言語空間
- Authors: Jungin Park, Jiyoung Lee, Kwanghoon Sohn,
- Abstract要約: VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 47.04855334955006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces VLAP, a novel approach that bridges pretrained vision models and large language models (LLMs) to make frozen LLMs understand the visual world. VLAP transforms the embedding space of pretrained vision models into the LLMs' word embedding space using a single linear layer for efficient and general-purpose visual and language understanding. Specifically, we harness well-established word embeddings to bridge two modality embedding spaces. The visual and text representations are simultaneously assigned to a set of word embeddings within pretrained LLMs by formulating the assigning procedure as an optimal transport problem. We predict the assignment of one modality from the representation of another modality data, enforcing consistent assignments for paired multimodal data. This allows vision and language representations to contain the same information, grounding the frozen LLMs' word embedding space in visual data. Moreover, a robust semantic taxonomy of LLMs can be preserved with visual data since the LLMs interpret and reason linguistic information from correlations between word embeddings. Experimental results show that VLAP achieves substantial improvements over the previous linear transformation-based approaches across a range of vision-language tasks, including image captioning, visual question answering, and cross-modal retrieval. We also demonstrate the learned visual representations hold a semantic taxonomy of LLMs, making visual semantic arithmetic possible.
- Abstract(参考訳): 本稿では,凍結LDMが視覚世界を理解するために,事前学習された視覚モデルと大規模言語モデル(LLM)をブリッジする新しいアプローチであるVLAPを紹介する。
VLAPは、学習済み視覚モデルの埋め込み空間を単一の線形層を用いてLLMの単語埋め込み空間に変換し、効率的で汎用的な視覚および言語理解を実現する。
具体的には、2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
割り当て手順を最適な輸送問題として定式化することにより、視覚およびテキスト表現を事前訓練されたLLM内の単語埋め込みのセットに同時に割り当てる。
我々は、ペア化されたマルチモーダルデータに対して一貫した割り当てを課し、他のモーダルデータの表現から1つのモーダルの割り当てを予測する。
これにより、視覚と言語表現は同じ情報を含むことができ、凍結したLLMの単語埋め込みスペースを視覚データに埋め込むことができる。
さらに、LLMが単語埋め込み間の相関関係から言語情報を解釈し、推論するため、LLMの堅牢な意味分類を視覚データで保存することができる。
実験結果から,VLAPは画像キャプション,視覚的質問応答,モーダル間検索などの視覚言語タスクにおいて,従来の線形変換に基づくアプローチよりも大幅に改善されていることがわかった。
また、学習した視覚表現がLLMのセマンティックな分類を持ち、視覚的なセマンティックな算術を可能にすることを実証する。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Aligning Actions and Walking to LLM-Generated Textual Descriptions [3.1049440318608568]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T13:56:03Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - LLaFS: When Large Language Models Meet Few-Shot Segmentation [32.86287519276783]
LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、アノテーション付きサポート画像からの制限された情報とバイアスのある情報のみに依存する従来の数ショットセグメンテーション法とは対照的に、LLMを直接使用して数ショットで画像のセグメンテーションを行う。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文 参考訳(メタデータ) (2023-11-28T16:31:27Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。