論文の概要: Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions?
- arxiv url: http://arxiv.org/abs/2506.05765v2
- Date: Wed, 11 Jun 2025 02:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.715936
- Title: Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions?
- Title(参考訳): 幻覚の実際の特徴と明瞭な特徴を区別する大規模視線モデル
- Authors: Taiga Shinozaki, Tomoki Doi, Amane Watahiki, Satoshi Nishida, Hitomi Yanaka,
- Abstract要約: 人間は視覚錯覚に敏感で、感覚や認知の過程を研究する貴重な道具として機能する。
大規模視覚言語モデル(LVLM)のような機械が視覚錯覚に類似した感受性を示すかどうかの研究が始まっている。
- 参考スコア(独自算出の注目度): 12.157632635072435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are susceptible to optical illusions, which serve as valuable tools for investigating sensory and cognitive processes. Inspired by human vision studies, research has begun exploring whether machines, such as large vision language models (LVLMs), exhibit similar susceptibilities to visual illusions. However, studies often have used non-abstract images and have not distinguished actual and apparent features, leading to ambiguous assessments of machine cognition. To address these limitations, we introduce a visual question answering (VQA) dataset, categorized into genuine and fake illusions, along with corresponding control images. Genuine illusions present discrepancies between actual and apparent features, whereas fake illusions have the same actual and apparent features even though they look illusory due to the similar geometric configuration. We evaluate the performance of LVLMs for genuine and fake illusion VQA tasks and investigate whether the models discern actual and apparent features. Our findings indicate that although LVLMs may appear to recognize illusions by correctly answering questions about both feature types, they predict the same answers for both Genuine Illusion and Fake Illusion VQA questions. This suggests that their responses might be based on prior knowledge of illusions rather than genuine visual understanding. The dataset is available at https://github.com/ynklab/FILM
- Abstract(参考訳): 人間は視覚錯覚に敏感で、感覚や認知の過程を研究する貴重な道具として機能する。
人間の視覚研究に触発された研究は、大型視覚言語モデル(LVLM)のような機械が視覚錯覚に類似した感受性を示すかどうかを探求し始めた。
しかし、研究はしばしば非抽象的画像を使用し、実際の特徴と明らかな特徴を区別せず、マシン認知の曖昧な評価に繋がった。
これらの制約に対処するために、視覚的質問応答(VQA)データセットを導入し、実際の錯覚と偽の錯覚と、対応する制御画像に分類する。
擬似錯視は、実際の特徴と明らかな特徴の相違を示すが、擬似錯視は、類似した幾何学的構成のため、不明瞭に見えるにもかかわらず、同じ実像と明らかな特徴を持つ。
実例と偽例のVQA課題に対するLVLMの性能評価を行い,本モデルが実際の特徴と明らかな特徴を識別するかどうかを検討した。
以上の結果から,LVLMは両方の特徴型に関する疑問に正しく答えることによって錯覚を認識できると考えられるが,Genuine Illusion と Fake Illusion VQA の2つの質問に対して,同じ答えを予測できる可能性が示唆された。
これは、彼らの反応が真の視覚的理解ではなく、幻想の事前の知識に基づいていることを示唆している。
データセットはhttps://github.com/ynklab/FILMで公開されている。
関連論文リスト
- Do you see what I see? An Ambiguous Optical Illusion Dataset exposing limitations of Explainable AI [4.58733012283457]
本稿では,視覚のあいまいさを喚起する視覚錯覚の新たなデータセットについて紹介する。
我々は、一般化可能な視覚概念、特に視線方向と眼の手がかりを、モデル精度に大きな影響を及ぼす微妙だが影響のある特徴として識別する。
本研究は,視覚学習における概念の重要性を浮き彫りにし,人間と機械の視界の偏りと整合を研究する基盤を提供するものである。
論文 参考訳(メタデータ) (2025-05-27T12:22:59Z) - IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文 参考訳(メタデータ) (2024-12-13T13:07:08Z) - The Illusion-Illusion: Vision Language Models See Illusions Where There are None [0.0]
現代の視覚言語システムの多くは、錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
論文 参考訳(メタデータ) (2024-12-07T03:30:51Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。