論文の概要: ORIC: Benchmarking Object Recognition in Incongruous Context for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.15695v1
- Date: Fri, 19 Sep 2025 07:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.047082
- Title: ORIC: Benchmarking Object Recognition in Incongruous Context for Large Vision-Language Models
- Title(参考訳): ORIC:大規模視覚言語モデルのための不連続文脈におけるオブジェクト認識のベンチマーク
- Authors: Zhaoyang Li, Zhan Ling, Yuchen Zhou, Hao Su,
- Abstract要約: 我々は、LVLM(Large Vision-Language Models)を評価する新しいベンチマークであるORIC(Incongruous Context Benchmark)にオブジェクト認識を導入する。
ORIC は,(1) LLM-guided sample, (2) LLM-guided sample, (2) CLIP-guided sample という2つの重要な手法を採用している。
以上の結果から,文脈的不整合による課題を浮き彫りにし,認識のギャップが顕著であることが明らかとなった。
- 参考スコア(独自算出の注目度): 28.371365768113648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have made significant strides in image caption, visual question answering, and robotics by integrating visual and textual information. However, they remain prone to errors in incongruous contexts, where objects appear unexpectedly or are absent when contextually expected. This leads to two key recognition failures: object misidentification and hallucination. To systematically examine this issue, we introduce the Object Recognition in Incongruous Context Benchmark (ORIC), a novel benchmark that evaluates LVLMs in scenarios where object-context relationships deviate from expectations. ORIC employs two key strategies: (1) LLM-guided sampling, which identifies objects that are present but contextually incongruous, and (2) CLIP-guided sampling, which detects plausible yet nonexistent objects that are likely to be hallucinated, thereby creating an incongruous context. Evaluating 18 LVLMs and two open-vocabulary detection models, our results reveal significant recognition gaps, underscoring the challenges posed by contextual incongruity. This work provides critical insights into LVLMs' limitations and encourages further research on context-aware object recognition.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚情報とテキスト情報を統合することで、画像キャプション、視覚的質問応答、ロボット工学において大きな進歩を遂げている。
しかし、不連続なコンテキストでは、オブジェクトが予期せず現れるか、あるいは、コンテキスト的に期待された時に欠落しているようなエラーが発生しやすい。
これは、物体の誤認と幻覚という、2つの重要な認識障害につながります。
この問題を体系的に検討するために,オブジェクト指向関係が期待から逸脱するシナリオにおいて,LVLMを評価する新しいベンチマークである,不連続コンテキストベンチマーク(ORIC)のオブジェクト認識を導入する。
ORIC は,(1) LLM-guided サンプリング,(2) LLM-guided サンプリング,(2) CLIP-guided サンプリングの2つの重要な戦略を採用している。
18のLVLMと2つのオープンボキャブラリ検出モデルを評価することで,文脈的不整合による課題を浮き彫りにした。
この研究はLVLMの限界に対する重要な洞察を与え、文脈認識オブジェクト認識に関するさらなる研究を奨励する。
関連論文リスト
- Memorization $\neq$ Understanding: Do Large Language Models Have the Ability of Scenario Cognition? [10.010113234203208]
本稿では,大規模言語モデルのシナリオ認識を評価するための2視点評価フレームワークを提案する。
本稿では,シナリオ要素を付加した,架空の事実の多種多様なテキスト記述を含むシナリオベースデータセットを提案する。
実験の結果,現在のLLMは表層記憶に大きく依存しており,頑健なセマンティックなシナリオ認識を達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-05T07:30:01Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。