論文の概要: Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge
- arxiv url: http://arxiv.org/abs/2411.16824v1
- Date: Mon, 25 Nov 2024 18:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:15.375780
- Title: Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge
- Title(参考訳): Beyond Sight: 豊富な視覚的知識によるLVLMの認知的アライメントを目指して
- Authors: Yaqi Zhao, Yuanyang Yin, Lin Li, Mingan Lin, Victor Shea-Jay Huang, Siwei Chen, Weipeng Chen, Baoqun Yin, Zenan Zhou, Wentao Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
- 参考スコア(独自算出の注目度): 24.538839144639653
- License:
- Abstract: Does seeing always mean knowing? Large Vision-Language Models (LVLMs) integrate separately pre-trained vision and language components, often using CLIP-ViT as vision backbone. However, these models frequently encounter a core issue of "cognitive misalignment" between the vision encoder (VE) and the large language model (LLM). Specifically, the VE's representation of visual information may not fully align with LLM's cognitive framework, leading to a mismatch where visual features exceed the language model's interpretive range. To address this, we investigate how variations in VE representations influence LVLM comprehension, especially when the LLM faces VE-Unknown data-images whose ambiguous visual representations challenge the VE's interpretive precision. Accordingly, we construct a multi-granularity landmark dataset and systematically examine the impact of VE-Known and VE-Unknown data on interpretive abilities. Our results show that VE-Unknown data limits LVLM's capacity for accurate understanding, while VE-Known data, rich in distinctive features, helps reduce cognitive misalignment. Building on these insights, we propose Entity-Enhanced Cognitive Alignment (EECA), a method that employs multi-granularity supervision to generate visually enriched, well-aligned tokens that not only integrate within the LLM's embedding space but also align with the LLM's cognitive framework. This alignment markedly enhances LVLM performance in landmark recognition. Our findings underscore the challenges posed by VE-Unknown data and highlight the essential role of cognitive alignment in advancing multimodal systems.
- Abstract(参考訳): 視ることは常に知ることを意味するのか?
LVLM(Large Vision-Language Models)は、個別にトレーニング済みのビジョンと言語コンポーネントを統合し、しばしばビジョンバックボーンとしてCLIP-ViTを使用する。
しかし、これらのモデルはしばしば視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」という中核的な問題に遭遇する。
具体的には、VE の視覚情報の表現は LLM の認知フレームワークと完全に一致しない可能性があり、視覚的特徴が言語モデルの解釈範囲を超えるというミスマッチに繋がる。
そこで本研究では,VE表現の変動がLVLM理解にどのような影響を及ぼすか,特に,不明瞭な視覚的表現がVEの解釈精度に挑戦するVE未知のデータ画像に直面する場合について検討する。
そこで我々は,多粒度ランドマークデータセットを構築し,VE-KnownとVE-Unknownのデータが解釈能力に与える影響を体系的に検討した。
VE-Knownデータには特徴が豊富であり, 認知的不一致の軽減に寄与するが, VE-UnknownデータではLVLMの正確な理解能力が制限されている。
これらの知見に基づいて,多粒度監視を利用して,LLMの埋め込み空間に組み込むだけでなく,LLMの認知フレームワークと整合する,視覚的に豊かで整合したトークンを生成する手法であるEntity-Enhanced Cognitive Alignment (EECA)を提案する。
このアライメントはランドマーク認識におけるLVLM性能を著しく向上させる。
本研究は,VE-Unknownデータによる課題を浮き彫りにし,マルチモーダルシステムの進歩における認知的アライメントの本質的役割を強調した。
関連論文リスト
- X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。