論文の概要: Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models
- arxiv url: http://arxiv.org/abs/2312.02219v1
- Date: Sun, 3 Dec 2023 16:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:26:17.429099
- Title: Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models
- Title(参考訳): マジックの背後にあるMERLIM:大規模画像言語モデルのマルチモーダル評価ベンチマーク
- Authors: Andr\'es Villa, Juan Carlos Le\'on Alc\'azar, Alvaro Soto, Bernard
Ghanem
- Abstract要約: 本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
- 参考スコア(独自算出の注目度): 55.06726432948678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision and Language Models have enabled significant advances in fully
supervised and zero-shot vision tasks. These large pre-trained architectures
serve as the baseline to what is currently known as Instruction Tuning Large
Vision and Language models (IT-LVLMs). IT-LVLMs are general-purpose multi-modal
assistants whose responses are modulated by natural language instructions and
arbitrary visual data. Despite this versatility, IT-LVLM effectiveness in
fundamental computer vision problems remains unclear, primarily due to the
absence of a standardized evaluation benchmark. This paper introduces a
Multi-modal Evaluation Benchmark named MERLIM, a scalable test-bed to assess
the performance of IT-LVLMs on fundamental computer vision tasks. MERLIM
contains over 279K image-question pairs, and has a strong focus on detecting
cross-modal "hallucination" events in IT-LVLMs, where the language output
refers to visual concepts that lack any effective grounding in the image. Our
results show that state-of-the-art IT-LVMLs are still limited at identifying
fine-grained visual concepts, object hallucinations are common across tasks,
and their results are strongly biased by small variations in the input query,
even if the queries have the very same semantics. Our findings also suggest
that these models have weak visual groundings but they can still make adequate
guesses by global visual patterns or textual biases contained in the LLM
component.
- Abstract(参考訳): 大きなビジョンと言語モデルは、完全な教師付きおよびゼロショットビジョンタスクにおいて大きな進歩を可能にした。
これらの大きな事前学習されたアーキテクチャは、現在大きなビジョンと言語モデル(it-lvlms)をチューニングする命令のベースラインとして機能する。
IT-LVLMは、自然言語命令と任意の視覚データによって応答を変調する汎用マルチモーダルアシスタントである。
この汎用性にもかかわらず、基本的なコンピュータビジョン問題におけるIT-LVLMの有効性は、主に標準化された評価ベンチマークがないため、不明である。
本稿では,基本コンピュータビジョンタスクにおけるit-lvlmsの性能を評価するためのスケーラブルなテストベッドmerlimというマルチモーダル評価ベンチマークを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな「ハロシン化」イベントの検出に重点を置いている。
以上の結果から,現状のIT-LVMLは細かな視覚概念の特定にはまだ限界があり,オブジェクトの幻覚はタスク間で共通であり,クエリが全く同じ意味を持つ場合でも,入力クエリの小さなバリエーションに強く偏っていることがわかった。
また,これらのモデルには弱い視覚基盤があるが,グローバルな視覚パターンやllmコンポーネントに含まれるテキストバイアスによっても十分な推測ができることが示唆された。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。