論文の概要: The Illusion-Illusion: Vision Language Models See Illusions Where There are None
- arxiv url: http://arxiv.org/abs/2412.18613v1
- Date: Sat, 07 Dec 2024 03:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 10:28:51.213744
- Title: The Illusion-Illusion: Vision Language Models See Illusions Where There are None
- Title(参考訳): Illusion-Illusion:視覚言語モデルでは、誰もいない場所でIllusionを見る
- Authors: Tomer Ullman,
- Abstract要約: 現代の視覚言語システムの多くは、錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Illusions are entertaining, but they are also a useful diagnostic tool in cognitive science, philosophy, and neuroscience. A typical illusion shows a gap between how something "really is" and how something "appears to be", and this gap helps us understand the mental processing that lead to how something appears to be. Illusions are also useful for investigating artificial systems, and much research has examined whether computational models of perceptions fall prey to the same illusions as people. Here, I invert the standard use of perceptual illusions to examine basic processing errors in current vision language models. I present these models with illusory-illusions, neighbors of common illusions that should not elicit processing errors. These include such things as perfectly reasonable ducks, crooked lines that truly are crooked, circles that seem to have different sizes because they are, in fact, of different sizes, and so on. I show that many current vision language systems mistakenly see these illusion-illusions as illusions. I suggest that such failures are part of broader failures already discussed in the literature.
- Abstract(参考訳): 幻想は楽しいが、認知科学、哲学、神経科学において有用な診断ツールでもある。
典型的な錯覚は、何かが「本当にある」のか、どのように見えるのかのギャップを示しており、このギャップは、何かがどう見えるかにつながるメンタルな処理を理解するのに役立つ。
錯覚は人工システムの調査にも有用であり、知覚の計算モデルが人間と同じ錯覚に陥るかどうかを多くの研究が調査している。
ここでは、現在の視覚言語モデルにおける基本的な処理誤差を調べるために、知覚錯覚の標準的な使用法を反転させる。
私はこれらのモデルに、処理エラーを誘発すべきでない一般的な錯覚の隣人である、幻想的イリュージョンを添えて提示する。
そこには、完全に合理的なアヒル、真に曲がりくねった線、実際に大きさが異なるため、大きさが異なるように見える円などが含まれる。
現代の視覚言語システムの多くは、錯覚の錯覚を錯覚と勘違いしている。
このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
関連論文リスト
- Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments [59.87080148922358]
我々は、Makelov et al. (2023)が実際に見ているのは、トレーニングと評価のパラダイムの成果であると主張している。
しかし、Makelov et al. (2023) の例と議論は間違いなく解釈可能性の分野を前進させた。
論文 参考訳(メタデータ) (2024-01-23T10:27:42Z) - Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。
我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。
これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2023-12-06T18:59:18Z) - Can Language Models Be Tricked by Language Illusions? Easier with
Syntax, Harder with Semantics [7.759719313292493]
我々は「言語錯覚」に関連するLMのより微妙な判断について検討する。
比較錯視、深さ電荷錯視、負極性イリュージョン(NPI)という3つの錯覚を考察する。
我々は,人間の言語処理の認知モデルとして,かつ複雑な言語材料において,ニュアンスだが重要な情報を認識する能力において,LMは相対的に制限されていることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:44:24Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Evolutionary Generation of Visual Motion Illusions [0.0]
本稿では,新しい視覚運動錯覚を生み出す進化的イリュージョンジェネレータ(EIGen)について述べる。
EIGenの構造は、照明運動が脳自身の予測を知覚した結果であるかもしれないという仮説を支持している。
本論文の科学的動機は、視覚運動の知覚が脳の予測能力の副作用であることを示すことである。
論文 参考訳(メタデータ) (2021-12-25T14:53:50Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。