論文の概要: Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans?
- arxiv url: http://arxiv.org/abs/2311.00047v1
- Date: Tue, 31 Oct 2023 18:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:27:14.961158
- Title: Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans?
- Title(参考訳): 視覚言語モデルは人間のように錯覚を知覚するのか?
- Authors: Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai
- Abstract要約: VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
- 参考スコア(独自算出の注目度): 28.654771227396807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are trained on vast amounts of data captured by
humans emulating our understanding of the world. However, known as visual
illusions, human's perception of reality isn't always faithful to the physical
world. This raises a key question: do VLMs have the similar kind of illusions
as humans do, or do they faithfully learn to represent reality? To investigate
this question, we build a dataset containing five types of visual illusions and
formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our
findings have shown that although the overall alignment is low, larger models
are closer to human perception and more susceptible to visual illusions. Our
dataset and initial findings will promote a better understanding of visual
illusions in humans and machines and provide a stepping stone for future
computational models that can better align humans and machines in perceiving
and communicating about the shared visual world. The code and data are
available at https://github.com/vl-illusion/dataset.
- Abstract(参考訳): VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータをトレーニングする。
しかし、視覚錯覚として知られており、人間の現実に対する認識は常に物理的世界に忠実であるとは限らない。
VLMは人間がしているような錯覚を持っているのか、それとも現実を表現するために忠実に学習しているのか?
そこで本研究では、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を検証した。
その結果、全体的なアライメントは低いが、より大きなモデルは人間の知覚に近く、視覚錯覚の影響を受けやすいことがわかった。
我々のデータセットと初期の発見は、人間と機械の視覚的錯覚をよりよく理解し、将来の計算モデルのための足場を提供し、人間と機械が共有された視覚世界について知覚しコミュニケーションしやすくする。
コードとデータはhttps://github.com/vl-illusion/datasetで入手できる。
関連論文リスト
- IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文 参考訳(メタデータ) (2024-12-13T13:07:08Z) - Evaluating Model Perception of Color Illusions in Photorealistic Scenes [16.421832484760987]
視覚言語モデルによる色覚の知覚について検討する。
カラーイリュージョン画像を生成するための自動フレームワークを提案する。
実験では、すべての研究されたVLMが人間の視覚に類似した知覚バイアスを示すことが示された。
論文 参考訳(メタデータ) (2024-12-09T03:49:10Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - BRI3L: A Brightness Illusion Image Dataset for Identification and
Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。
1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。
深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文 参考訳(メタデータ) (2024-02-07T02:57:40Z) - Improving generalization by mimicking the human visual diet [34.32585612888424]
本稿では,生物学的ビジョンとコンピュータビジョンの一般化ギャップを埋める新たな視点を提案する。
その結果、人間の視覚訓練データ(視覚ダイエット)に変化と文脈的手がかりをユビキタスに組み込むことで、現実の変換への一般化が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-15T20:32:24Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。