Fugu-MT 論文翻訳(概要): The Illusion-Illusion: Vision Language Models See Illusions Where There are None

論文の概要: The Illusion-Illusion: Vision Language Models See Illusions Where There are None

arxiv url: http://arxiv.org/abs/2412.18613v1
Date: Sat, 07 Dec 2024 03:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 09:44:57.576365
Title: The Illusion-Illusion: Vision Language Models See Illusions Where There are None
Title（参考訳）: Illusion-Illusion:視覚言語モデルでは、誰もいない場所でIllusionを見る
Authors: Tomer Ullman,
Abstract要約: 現代の視覚言語システムの多くは、錯覚を錯覚と勘違いしている。このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Illusions are entertaining, but they are also a useful diagnostic tool in cognitive science, philosophy, and neuroscience. A typical illusion shows a gap between how something "really is" and how something "appears to be", and this gap helps us understand the mental processing that lead to how something appears to be. Illusions are also useful for investigating artificial systems, and much research has examined whether computational models of perceptions fall prey to the same illusions as people. Here, I invert the standard use of perceptual illusions to examine basic processing errors in current vision language models. I present these models with illusory-illusions, neighbors of common illusions that should not elicit processing errors. These include such things as perfectly reasonable ducks, crooked lines that truly are crooked, circles that seem to have different sizes because they are, in fact, of different sizes, and so on. I show that many current vision language systems mistakenly see these illusion-illusions as illusions. I suggest that such failures are part of broader failures already discussed in the literature.
Abstract（参考訳）: 幻想は楽しいが、認知科学、哲学、神経科学において有用な診断ツールでもある。典型的な錯覚は、何かが「本当にある」のか、どのように見えるのかのギャップを示しており、このギャップは、何かがどう見えるかにつながるメンタルな処理を理解するのに役立つ。錯覚は人工システムの調査にも有用であり、知覚の計算モデルが人間と同じ錯覚に陥るかどうかを多くの研究が調査している。ここでは、現在の視覚言語モデルにおける基本的な処理誤差を調べるために、知覚錯覚の標準的な使用法を反転させる。私はこれらのモデルに、処理エラーを誘発すべきでない一般的な錯覚の隣人である、幻想的イリュージョンを添えて提示する。そこには、完全に合理的なアヒル、真に曲がりくねった線、実際に大きさが異なるため、大きさが異なるように見える円などが含まれる。現代の視覚言語システムの多くは、錯覚の錯覚を錯覚と勘違いしている。このような失敗は、すでに文献で議論されている広範な失敗の一部であることを提案します。

関連論文リスト

Illusions in Humans and AI: How Visual Perception Aligns and Diverges [14.661957041103404]
生体と人工の知覚を錯覚のレンズを通して比較することにより、それぞれのシステムが視覚的現実を構築する方法について、重要な違いを浮き彫りにする。視覚錯覚は、人間の知覚が生の知覚データではなく、文脈的な仮定に基づいていることを示す。この記事では、色、サイズ、形状、動きを含む古典的な視覚錯覚に対するAIの反応について説明する。
論文参考訳（メタデータ） (2025-08-17T16:12:54Z)
Do Large Vision-Language Models Distinguish between the Actual and Apparent Features of Illusions? [12.157632635072435]
人間は視覚錯覚に敏感で、感覚や認知の過程を研究する貴重な道具として機能する。大規模視覚言語モデル(LVLM)のような機械が視覚錯覚に類似した感受性を示すかどうかの研究が始まっている。
論文参考訳（メタデータ） (2025-06-06T05:47:50Z)
Delusions of Large Language Models [62.43923767408462]
大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文参考訳（メタデータ） (2025-03-09T17:59:16Z)
Trust Me, I'm Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer [51.7407540261676]
本研究では,モデルが常に正しい解答を行うことのできる幻覚の別のタイプについて検討するが,一見自明な摂動は,高い確実性で幻覚応答を生じさせる。この現象は特に医学や法学などの高度な領域において、モデルの確実性はしばしば信頼性の代用として使用される。 CHOKEの例は、プロンプト間で一貫性があり、異なるモデルやデータセットで発生し、他の幻覚と根本的に異なることを示す。
論文参考訳（メタデータ） (2025-02-18T15:46:31Z)
IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文参考訳（メタデータ） (2025-01-01T14:10:25Z)
Slow Perception: Let's Perceive Geometric Figures Step-by-step [53.69067976062474]
私たちは、正確なコピー(強い知覚)が視覚的なo1への第一歩だと信じています。本稿では,モデルが基本点-線の組み合わせを徐々に知覚するように導く「スロー知覚(SP)」の概念を紹介する。
論文参考訳（メタデータ） (2024-12-30T00:40:35Z)
The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文参考訳（メタデータ） (2024-12-13T13:07:08Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments [59.87080148922358]
我々は、Makelov et al. (2023)が実際に見ているのは、トレーニングと評価のパラダイムの成果であると主張している。しかし、Makelov et al. (2023) の例と議論は間違いなく解釈可能性の分野を前進させた。
論文参考訳（メタデータ） (2024-01-23T10:27:42Z)
Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文参考訳（メタデータ） (2023-12-06T18:59:18Z)
Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。 VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか? 我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文参考訳（メタデータ） (2023-10-31T18:01:11Z)
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。 HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文参考訳（メタデータ） (2023-10-23T04:49:09Z)
Evolutionary Generation of Visual Motion Illusions [0.0]
本稿では,新しい視覚運動錯覚を生み出す進化的イリュージョンジェネレータ(EIGen)について述べる。 EIGenの構造は、照明運動が脳自身の予測を知覚した結果であるかもしれないという仮説を支持している。本論文の科学的動機は、視覚運動の知覚が脳の予測能力の副作用であることを示すことである。
論文参考訳（メタデータ） (2021-12-25T14:53:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。