論文の概要: The Art of Deception: Color Visual Illusions and Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.10122v1
- Date: Fri, 13 Dec 2024 13:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:39.080714
- Title: The Art of Deception: Color Visual Illusions and Diffusion Models
- Title(参考訳): 認知の芸術:カラー視覚錯覚と拡散モデル
- Authors: Alex Gomez-Villa, Kai Wang, Alejandro C. Parraga, Bartlomiej Twardowski, Jesus Malo, Javier Vazquez-Corral, Joost van de Weijer,
- Abstract要約: 近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。
また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
- 参考スコア(独自算出の注目度): 55.830105086695
- License:
- Abstract: Visual illusions in humans arise when interpreting out-of-distribution stimuli: if the observer is adapted to certain statistics, perception of outliers deviates from reality. Recent studies have shown that artificial neural networks (ANNs) can also be deceived by visual illusions. This revelation raises profound questions about the nature of visual information. Why are two independent systems, both human brains and ANNs, susceptible to the same illusions? Should any ANN be capable of perceiving visual illusions? Are these perceptions a feature or a flaw? In this work, we study how visual illusions are encoded in diffusion models. Remarkably, we show that they present human-like brightness/color shifts in their latent space. We use this fact to demonstrate that diffusion models can predict visual illusions. Furthermore, we also show how to generate new unseen visual illusions in realistic images using text-to-image diffusion models. We validate this ability through psychophysical experiments that show how our model-generated illusions also fool humans.
- Abstract(参考訳): 人間の視覚錯覚は、アウト・オブ・ディストリビューションの刺激を解釈する際に生じる: オブザーバが特定の統計に適応している場合、アウトリーチの知覚は現実から逸脱する。
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。
この啓示は視覚情報の性質に関する深い疑問を提起する。
なぜ、人間の脳とANNの2つの独立したシステムが、同じ錯覚に影響を受けやすいのか?
ANNは視覚的な錯覚を知覚できるだろうか?
これらの認識は特徴か欠陥か?
本研究では,拡散モデルにおいて視覚錯覚がどのように符号化されているかを検討する。
注目すべきは、人間のような明るさ/色の変化が潜伏空間に現れることである。
この事実を利用して、拡散モデルが視覚錯覚を予測できることを実証する。
さらに,テキストから画像への拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
我々は、モデルが生み出す錯覚がいかに人間を騙すかを示す心理物理学的な実験を通して、この能力を検証する。
関連論文リスト
- Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。
我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。
実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文 参考訳(メタデータ) (2024-06-29T17:57:22Z) - Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.10226585746848]
拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-06-13T17:43:41Z) - Investigating Color Illusions from the Perspective of Computational
Color Constancy [2.608935407927351]
色覚の感覚を再現できるモデルは、光源のピクセル単位での推定も可能であるべきだと我々は主張する。
本研究では,色呈示における人間の視覚系の挙動を再現するために,色呈示法と色呈示法について検討した。
論文 参考訳(メタデータ) (2023-12-20T15:34:15Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Evolutionary Generation of Visual Motion Illusions [0.0]
本稿では,新しい視覚運動錯覚を生み出す進化的イリュージョンジェネレータ(EIGen)について述べる。
EIGenの構造は、照明運動が脳自身の予測を知覚した結果であるかもしれないという仮説を支持している。
本論文の科学的動機は、視覚運動の知覚が脳の予測能力の副作用であることを示すことである。
論文 参考訳(メタデータ) (2021-12-25T14:53:50Z) - Predictive coding feedback results in perceived illusory contours in a
recurrent neural network [0.0]
脳にインスパイアされたリカレントダイナミクスを備えたディープフィードフォワード畳み込みネットワークを備える。
照明輪郭の知覚にはフィードバック接続が関与する可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-03T09:07:09Z) - Visual Chirality [51.685596116645776]
視覚データの統計が反射によってどのように変化するかを検討する。
我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T20:48:23Z) - Color Visual Illusions: A Statistics-based Computational Model [20.204147875108976]
大規模なデータセットから学ぶと、パッチの可能性を計算するツールを導入します。
本稿では,鮮明さと色覚の錯覚を統一的に説明できるモデルを提案する。
我々のモデルは、逆向きに同じツールを適用することで、自然画像の視覚錯覚を生成する。
論文 参考訳(メタデータ) (2020-05-18T14:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。