論文の概要: Bridging Perception and Language: A Systematic Benchmark for LVLMs' Understanding of Amodal Completion Reports
- arxiv url: http://arxiv.org/abs/2507.05799v1
- Date: Tue, 08 Jul 2025 09:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.760338
- Title: Bridging Perception and Language: A Systematic Benchmark for LVLMs' Understanding of Amodal Completion Reports
- Title(参考訳): ブリジング・パーセプションと言語:LVLMのアモーダル・コンプリート・レポート理解のための体系的ベンチマーク
- Authors: Amane Watahiki, Tomoki Doi, Taiga Shinozaki, Satoshi Nishida, Takuya Niikawa, Katsunori Miyahara, Hitomi Yanaka,
- Abstract要約: 本研究では,アモーダル完了に関連するテキストに基づいて,大規模視覚言語モデルの推論能力について検討する。
以上の結果から,LVLMは人間に比較可能な性能を全般的に達成するが,その精度は特定の種類のオブジェクトに対してばらつきが生じることが示唆された。
興味深いことに、この格差は日本語のプロンプトの下でのみ出現し、これらのモデルにおいて日本語固有の言語能力の欠如が示唆されている。
- 参考スコア(独自算出の注目度): 10.925743866700037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main objectives in developing large vision-language models (LVLMs) is to engineer systems that can assist humans with multimodal tasks, including interpreting descriptions of perceptual experiences. A central phenomenon in this context is amodal completion, in which people perceive objects even when parts of those objects are hidden. Although numerous studies have assessed whether computer-vision algorithms can detect or reconstruct occluded regions, the inferential abilities of LVLMs on texts related to amodal completion remain unexplored. To address this gap, we constructed a benchmark grounded in Basic Formal Ontology to achieve a systematic classification of amodal completion. Our results indicate that while many LVLMs achieve human-comparable performance overall, their accuracy diverges for certain types of objects being completed. Notably, in certain categories, some LLaVA-NeXT variants and Claude 3.5 Sonnet exhibit lower accuracy on original images compared to blank stimuli lacking visual content. Intriguingly, this disparity emerges only under Japanese prompting, suggesting a deficiency in Japanese-specific linguistic competence among these models.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)を開発する主な目的の1つは、知覚経験の記述を解釈するなど、人間をマルチモーダルなタスクで支援できるシステムを設計することである。
この文脈における中心的な現象は、アモーダル・コンプリート(英語版)であり、これらのオブジェクトの一部が隠されているとしても、人々はオブジェクトを知覚する。
コンピュータビジョンアルゴリズムが隠蔽領域を検出または再構成できるかどうかを多くの研究が評価しているが、アモーダル完了に関連するテキスト上でのLVLMの推論能力は未解明のままである。
このギャップに対処するため,基本形式オントロジーに基づくベンチマークを構築し,アモーダル完備化の体系的な分類を実現した。
以上の結果から,LVLMは人間に比較可能な性能を全般的に達成するが,その精度は特定の種類のオブジェクトに対してばらつきが生じることが示唆された。
特に、あるカテゴリでは、LLaVA-NeXTとClaude 3.5 Sonnetは、視覚的内容に欠ける空白刺激に比べて、原画像の精度が低い。
興味深いことに、この格差は日本語のプロンプトの下でのみ出現し、これらのモデルにおいて日本語固有の言語能力の欠如が示唆されている。
関連論文リスト
- Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。
本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。
解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文 参考訳(メタデータ) (2025-06-12T08:27:24Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。
このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。
このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T13:42:37Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。