論文の概要: Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans?
- arxiv url: http://arxiv.org/abs/2311.00047v1
- Date: Tue, 31 Oct 2023 18:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:27:14.961158
- Title: Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans?
- Title(参考訳): 視覚言語モデルは人間のように錯覚を知覚するのか?
- Authors: Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai
- Abstract要約: VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
- 参考スコア(独自算出の注目度): 28.654771227396807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are trained on vast amounts of data captured by
humans emulating our understanding of the world. However, known as visual
illusions, human's perception of reality isn't always faithful to the physical
world. This raises a key question: do VLMs have the similar kind of illusions
as humans do, or do they faithfully learn to represent reality? To investigate
this question, we build a dataset containing five types of visual illusions and
formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our
findings have shown that although the overall alignment is low, larger models
are closer to human perception and more susceptible to visual illusions. Our
dataset and initial findings will promote a better understanding of visual
illusions in humans and machines and provide a stepping stone for future
computational models that can better align humans and machines in perceiving
and communicating about the shared visual world. The code and data are
available at https://github.com/vl-illusion/dataset.
- Abstract(参考訳): VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータをトレーニングする。
しかし、視覚錯覚として知られており、人間の現実に対する認識は常に物理的世界に忠実であるとは限らない。
VLMは人間がしているような錯覚を持っているのか、それとも現実を表現するために忠実に学習しているのか?
そこで本研究では、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を検証した。
その結果、全体的なアライメントは低いが、より大きなモデルは人間の知覚に近く、視覚錯覚の影響を受けやすいことがわかった。
我々のデータセットと初期の発見は、人間と機械の視覚的錯覚をよりよく理解し、将来の計算モデルのための足場を提供し、人間と機械が共有された視覚世界について知覚しコミュニケーションしやすくする。
コードとデータはhttps://github.com/vl-illusion/datasetで入手できる。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Are Vision Language Models Texture or Shape Biased and Can We Steer Them? [29.837399598519557]
視覚言語モデル(VLM)におけるテクスチャと形状バイアスについて検討する。
VLMは、視覚エンコーダよりも形状バイアスが強く、視覚バイアスはテキストによってある程度変調されていることが示される。
例えば、偏見を49%から72%に抑えることができるのです。
論文 参考訳(メタデータ) (2024-03-14T09:07:14Z) - BRI3L: A Brightness Illusion Image Dataset for Identification and
Localization of Regions of Illusory Perception [4.685953126232505]
錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。
1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。
深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
論文 参考訳(メタデータ) (2024-02-07T02:57:40Z) - Improving generalization by mimicking the human visual diet [34.32585612888424]
本稿では,生物学的ビジョンとコンピュータビジョンの一般化ギャップを埋める新たな視点を提案する。
その結果、人間の視覚訓練データ(視覚ダイエット)に変化と文脈的手がかりをユビキタスに組み込むことで、現実の変換への一般化が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-15T20:32:24Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。