論文の概要: IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.00848v1
- Date: Wed, 01 Jan 2025 14:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:24.748456
- Title: IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models
- Title(参考訳): IllusionBench:視覚言語モデルにおける視覚的Illusion理解のための大規模かつ総合的なベンチマーク
- Authors: Yiming Zhang, Zicheng Zhang, Xinyi Wei, Xiaohong Liu, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
- 参考スコア(独自算出の注目度): 56.34742191010987
- License:
- Abstract: Current Visual Language Models (VLMs) show impressive image understanding but struggle with visual illusions, especially in real-world scenarios. Existing benchmarks focus on classical cognitive illusions, which have been learned by state-of-the-art (SOTA) VLMs, revealing issues such as hallucinations and limited perceptual abilities. To address this gap, we introduce IllusionBench, a comprehensive visual illusion dataset that encompasses not only classic cognitive illusions but also real-world scene illusions. This dataset features 1,051 images, 5,548 question-answer pairs, and 1,051 golden text descriptions that address the presence, causes, and content of the illusions. We evaluate ten SOTA VLMs on this dataset using true-or-false, multiple-choice, and open-ended tasks. In addition to real-world illusions, we design trap illusions that resemble classical patterns but differ in reality, highlighting hallucination issues in SOTA models. The top-performing model, GPT-4o, achieves 80.59% accuracy on true-or-false tasks and 76.75% on multiple-choice questions, but still lags behind human performance. In the semantic description task, GPT-4o's hallucinations on classical illusions result in low scores for trap illusions, even falling behind some open-source models. IllusionBench is, to the best of our knowledge, the largest and most comprehensive benchmark for visual illusions in VLMs to date.
- Abstract(参考訳): 現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、特に現実のシナリオでは視覚的な錯覚に苦しむ。
既存のベンチマークでは、最先端(SOTA)のVLMによって学習された古典的な認知錯覚に焦点を当てており、幻覚や知覚能力の制限といった問題を明らかにしている。
このギャップに対処するために、IllusionBenchを紹介します。IllusionBenchは、古典的な認知錯覚だけでなく、現実のシーン錯覚も含む包括的な視覚錯覚データセットです。
このデータセットには、1,051のイメージ、5,548の質問応答ペア、そして錯覚の存在、原因、内容に対処する1051の黄金のテキスト記述が含まれている。
我々は,本データセット上の10個のSOTA VLMを,真・偽・複数選択・オープンなタスクを用いて評価する。
実世界の錯覚に加えて、古典的なパターンに似ているが現実に異なるトラップ錯覚を設計し、SOTAモデルにおける幻覚の問題を浮き彫りにする。
最高のパフォーマンスモデルであるGPT-4oは、真または偽のタスクでは80.59%の精度、複数選択の質問では76.75%の精度を達成しているが、それでも人間のパフォーマンスには遅れがある。
意味記述タスクでは、GPT-4oの古典的錯覚に対する幻覚は、トラップ錯覚のスコアが低くなり、いくつかのオープンソースモデルに遅れることさえある。
IllusionBenchは、私たちの知る限り、VLMにおける視覚錯覚の最大かつ最も包括的なベンチマークです。
関連論文リスト
- The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文 参考訳(メタデータ) (2024-12-13T13:07:08Z) - The Illusion-Illusion: Vision Language Models See Illusions Where There are None [0.0]
現代の視覚言語システムの多くは、錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
論文 参考訳(メタデータ) (2024-12-07T03:30:51Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - BRI3L: A Brightness Illusion Image Dataset for Identification and
Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。
1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。
深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文 参考訳(メタデータ) (2024-02-07T02:57:40Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。