論文の概要: HallusionBench: An Advanced Diagnostic Suite for Entangled Language
Hallucination and Visual Illusion in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.14566v3
- Date: Thu, 29 Feb 2024 09:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:20:13.912699
- Title: HallusionBench: An Advanced Diagnostic Suite for Entangled Language
Hallucination and Visual Illusion in Large Vision-Language Models
- Title(参考訳): HallusionBench:大規模視覚言語モデルにおける言語幻覚と視覚錯覚の高度な診断スイート
- Authors: Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu
Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha,
Tianyi Zhou
- Abstract要約: 本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
我々は14種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
- 参考スコア(独自算出の注目度): 71.39041010696556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HallusionBench, a comprehensive benchmark designed for the
evaluation of image-context reasoning. This benchmark presents significant
challenges to advanced large visual-language models (LVLMs), such as
GPT-4V(Vision), Gemini Pro Vision, and LLaVA-1.5, by emphasizing nuanced
understanding and interpretation of visual data. The benchmark comprises 346
images paired with 1129 questions, all meticulously crafted by human experts.
We introduce a novel structure for these visual questions designed to establish
control groups. This structure enables us to conduct a quantitative analysis of
the models' response tendencies, logical consistency, and various failure
modes. In our evaluation on HallusionBench, we benchmarked 14 different models,
highlighting a 31.42% question-pair accuracy achieved by the state-of-the-art
GPT-4V. Notably, all other evaluated models achieve accuracy below 16%.
Moreover, our analysis not only highlights the observed failure modes,
including language hallucination and visual illusion, but also deepens an
understanding of these pitfalls. Our comprehensive case studies within
HallusionBench shed light on the challenges of hallucination and illusion in
LVLMs. Based on these insights, we suggest potential pathways for their future
improvement. The benchmark and codebase can be accessed at
https://github.com/tianyi-lab/HallusionBench.
- Abstract(参考訳): 画像コンテキスト推論の評価用に設計された総合ベンチマークであるhallusionbenchを紹介する。
このベンチマークは、GPT-4V(Vision)、Gemini Pro Vision、LLaVA-1.5のような高度なビジュアル言語モデル(LVLM)に対して、視覚データのニュアンスな理解と解釈を強調することで、大きな課題を提示している。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されている。
制御群を確立するために設計された視覚的質問に対する新しい構造を提案する。
この構造により,モデルの応答傾向,論理的一貫性,さまざまな障害モードを定量的に解析することができる。
hallusionbenchの評価では、14の異なるモデルをベンチマークし、最先端gpt-4vによって達成された31.42%のクエスチョンペア精度を強調した。
特に、他の評価モデルは全て16%未満の精度を達成する。
さらに,本分析では,言語幻覚や視覚錯覚など,観察された障害モードだけでなく,これらの落とし穴の理解を深めている。
HallusionBench内の包括的ケーススタディは、LVLMにおける幻覚と幻覚の課題に光を当てた。
これらの知見に基づいて,今後の改善の道筋を提案する。
ベンチマークとコードベースはhttps://github.com/tianyi-lab/hallusionbenchからアクセスできる。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。