論文の概要: The Illusion-Illusion: Vision Language Models See Illusions Where There are None
- arxiv url: http://arxiv.org/abs/2412.18613v1
- Date: Sat, 07 Dec 2024 03:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 10:28:51.213744
- Title: The Illusion-Illusion: Vision Language Models See Illusions Where There are None
- Title(参考訳): Illusion-Illusion:視覚言語モデルでは、誰もいない場所でIllusionを見る
- Authors: Tomer Ullman,
- Abstract要約: 現代の視覚言語システムの多くは、錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Illusions are entertaining, but they are also a useful diagnostic tool in cognitive science, philosophy, and neuroscience. A typical illusion shows a gap between how something "really is" and how something "appears to be", and this gap helps us understand the mental processing that lead to how something appears to be. Illusions are also useful for investigating artificial systems, and much research has examined whether computational models of perceptions fall prey to the same illusions as people. Here, I invert the standard use of perceptual illusions to examine basic processing errors in current vision language models. I present these models with illusory-illusions, neighbors of common illusions that should not elicit processing errors. These include such things as perfectly reasonable ducks, crooked lines that truly are crooked, circles that seem to have different sizes because they are, in fact, of different sizes, and so on. I show that many current vision language systems mistakenly see these illusion-illusions as illusions. I suggest that such failures are part of broader failures already discussed in the literature.
- Abstract(参考訳): 幻想は楽しいが、認知科学、哲学、神経科学において有用な診断ツールでもある。
典型的な錯覚は、何かが「本当にある」のか、どのように見えるのかのギャップを示しており、このギャップは、何かがどう見えるかにつながるメンタルな処理を理解するのに役立つ。
錯覚は人工システムの調査にも有用であり、知覚の計算モデルが人間と同じ錯覚に陥るかどうかを多くの研究が調査している。
ここでは、現在の視覚言語モデルにおける基本的な処理誤差を調べるために、知覚錯覚の標準的な使用法を反転させる。
私はこれらのモデルに、処理エラーを誘発すべきでない一般的な錯覚の隣人である、幻想的イリュージョンを添えて提示する。
そこには、完全に合理的なアヒル、真に曲がりくねった線、実際に大きさが異なるため、大きさが異なるように見える円などが含まれる。
現代の視覚言語システムの多くは、錯覚の錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
関連論文リスト
- IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - Slow Perception: Let's Perceive Geometric Figures Step-by-step [53.69067976062474]
私たちは、正確なコピー(強い知覚)が視覚的なo1への第一歩だと信じています。
本稿では,モデルが基本点-線の組み合わせを徐々に知覚するように導く「スロー知覚(SP)」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-30T00:40:35Z) - The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文 参考訳(メタデータ) (2024-12-13T13:07:08Z) - A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments [59.87080148922358]
我々は、Makelov et al. (2023)が実際に見ているのは、トレーニングと評価のパラダイムの成果であると主張している。
しかし、Makelov et al. (2023) の例と議論は間違いなく解釈可能性の分野を前進させた。
論文 参考訳(メタデータ) (2024-01-23T10:27:42Z) - Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-12-06T18:59:18Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Evolutionary Generation of Visual Motion Illusions [0.0]
本稿では,新しい視覚運動錯覚を生み出す進化的イリュージョンジェネレータ(EIGen)について述べる。
EIGenの構造は、照明運動が脳自身の予測を知覚した結果であるかもしれないという仮説を支持している。
本論文の科学的動機は、視覚運動の知覚が脳の予測能力の副作用であることを示すことである。
論文 参考訳(メタデータ) (2021-12-25T14:53:50Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。