論文の概要: HallusionBench: An Advanced Diagnostic Suite for Entangled Language
Hallucination & Visual Illusion in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.14566v2
- Date: Tue, 28 Nov 2023 20:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:43:38.598472
- Title: HallusionBench: An Advanced Diagnostic Suite for Entangled Language
Hallucination & Visual Illusion in Large Vision-Language Models
- Title(参考訳): hallusionbench: 大きな視覚言語モデルにおける絡み合った言語幻覚と視覚錯覚のための高度な診断スイート
- Authors: Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu
Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha,
Tianyi Zhou
- Abstract要約: 本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
我々は13種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
- 参考スコア(独自算出の注目度): 71.39041010696556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HallusionBench, a comprehensive benchmark designed for the
evaluation of image-context reasoning. This benchmark presents significant
challenges to advanced large visual-language models (LVLMs), such as
GPT-4V(Vision) and LLaVA-1.5, by emphasizing nuanced understanding and
interpretation of visual data. The benchmark comprises 346 images paired with
1129 questions, all meticulously crafted by human experts. We introduce a novel
structure for these visual questions designed to establish control groups. This
structure enables us to conduct a quantitative analysis of the models' response
tendencies, logical consistency, and various failure modes. In our evaluation
on HallusionBench, we benchmarked 13 different models, highlighting a 31.42%
question-pair accuracy achieved by the state-of-the-art GPT-4V. Notably, all
other evaluated models achieve accuracy below 16%. Moreover, our analysis not
only highlights the observed failure modes, including language hallucination
and visual illusion, but also deepens an understanding of these pitfalls. Our
comprehensive case studies within HallusionBench shed light on the challenges
of hallucination and illusion in LVLMs. Based on these insights, we suggest
potential pathways for their future improvement. The benchmark and codebase can
be accessed at https://github.com/tianyi-lab/HallusionBench.
- Abstract(参考訳): 画像コンテキスト推論の評価用に設計された総合ベンチマークであるhallusionbenchを紹介する。
このベンチマークは,GPT-4V(Vision)やLLaVA-1.5のような高度な視覚言語モデル(LVLM)に対して,視覚データのニュアンスな理解と解釈を強調することで大きな課題を提起する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されている。
制御群を確立するために設計された視覚的質問に対する新しい構造を提案する。
この構造により,モデルの応答傾向,論理的一貫性,さまざまな障害モードを定量的に解析することができる。
HallusionBenchの評価では、13種類のモデルをベンチマークし、31.42%の質問対精度を最先端のGPT-4Vで達成した。
特に、他の評価モデルは全て16%未満の精度を達成する。
さらに,本分析では,言語幻覚や視覚錯覚など,観察された障害モードだけでなく,これらの落とし穴の理解を深めている。
HallusionBench内の包括的ケーススタディは、LVLMにおける幻覚と幻覚の課題に光を当てた。
これらの知見に基づいて,今後の改善の道筋を提案する。
ベンチマークとコードベースはhttps://github.com/tianyi-lab/hallusionbenchからアクセスできる。
関連論文リスト
- DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information [9.420776624656144]
我々は、LVLM(Large Vision Language Models)の視覚知覚能力を評価する新しいデータセットVisOnlyQAを紹介する。
我々のデータセットは、推論などの他の機能に依存しない、きめ細かい視覚情報のために、LVLMの視覚的知覚を解析することを可能にする。
論文 参考訳(メタデータ) (2024-12-01T19:46:22Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。