論文の概要: Evaluating Model Perception of Color Illusions in Photorealistic Scenes
- arxiv url: http://arxiv.org/abs/2412.06184v1
- Date: Mon, 09 Dec 2024 03:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:48.355612
- Title: Evaluating Model Perception of Color Illusions in Photorealistic Scenes
- Title(参考訳): フォトリアリスティックシーンにおける色覚の知覚モデルの評価
- Authors: Lingjun Mao, Zineng Tang, Alane Suhr,
- Abstract要約: 視覚言語モデルによる色覚の知覚について検討する。
カラーイリュージョン画像を生成するための自動フレームワークを提案する。
実験では、すべての研究されたVLMが人間の視覚に類似した知覚バイアスを示すことが示された。
- 参考スコア(独自算出の注目度): 16.421832484760987
- License:
- Abstract: We study the perception of color illusions by vision-language models. Color illusion, where a person's visual system perceives color differently from actual color, is well-studied in human vision. However, it remains underexplored whether vision-language models (VLMs), trained on large-scale human data, exhibit similar perceptual biases when confronted with such color illusions. We propose an automated framework for generating color illusion images, resulting in RCID (Realistic Color Illusion Dataset), a dataset of 19,000 realistic illusion images. Our experiments show that all studied VLMs exhibit perceptual biases similar human vision. Finally, we train a model to distinguish both human perception and actual pixel differences.
- Abstract(参考訳): 視覚言語モデルによる色覚の知覚について検討する。
視覚系が実際の色と異なる色を知覚する色の錯覚は、人間の視覚においてよく研究されている。
しかし、大規模な人間のデータに基づいて訓練された視覚言語モデル(VLM)が、このような色の錯覚に直面した場合にも同様の知覚バイアスを示すか否かは、まだ解明されていない。
カラーイリュージョン画像を生成するための自動フレームワークを提案し、19,000個のリアルなイリュージョン画像のデータセットであるRCID(Realistic Color Illusion Dataset)を提案する。
実験の結果,VLMは人間の視覚に類似した知覚バイアスを示すことがわかった。
最後に,人間の知覚と実際の画素差を区別するモデルを訓練する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - A Computational Framework for Modeling Emergence of Color Vision in the Human Brain [9.10623460958915]
脳がどのようにして色覚を受信した視神経信号から純粋にデコードするかは謎である。
眼と大脳皮質の両方をシミュレートすることで、人間の色覚の出現をモデル化するための計算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T21:27:06Z) - Comparative Analysis Of Color Models For Human Perception And Visual Color Difference [0.0]
この研究は、RGB、HSV、HSL、XYZ、CIELAB、CIELUVなどの色モデルを評価し、人間の色知覚の正確性を評価する。
画像処理では,デジタルデザインから品質管理に至るまで,色差の正確な評価が不可欠である。
論文 参考訳(メタデータ) (2024-06-27T20:41:49Z) - Investigating Color Illusions from the Perspective of Computational
Color Constancy [2.608935407927351]
色覚の感覚を再現できるモデルは、光源のピクセル単位での推定も可能であるべきだと我々は主張する。
本研究では,色呈示における人間の視覚系の挙動を再現するために,色呈示法と色呈示法について検討した。
論文 参考訳(メタデータ) (2023-12-20T15:34:15Z) - Grounding Visual Illusions in Language: Do Vision-Language Models
Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。
VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか?
我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文 参考訳(メタデータ) (2023-10-31T18:01:11Z) - Divergences in Color Perception between Deep Neural Networks and Humans [3.0315685825606633]
我々はディープニューラルネットワーク(DNN)におけるカラー埋め込みの知覚的コヒーレンスを評価する実験を開発した。
これらのアルゴリズムがオンライン調査によって収集された人間の色類似性判定の精度を評価する。
本研究では,ウェーブレット分解に基づく色知覚モデルとDNN性能を比較した。
論文 参考訳(メタデータ) (2023-09-11T20:26:40Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - Towards Photorealistic Colorization by Imagination [48.82757902812846]
本稿では,人間の想像力を模倣した画像の自動色付け手法を提案する。
我々の研究は、最先端の画像カラー化手法よりも、よりカラフルで多彩な結果をもたらす。
論文 参考訳(メタデータ) (2021-08-20T14:28:37Z) - Assessing The Importance Of Colours For CNNs In Object Recognition [70.70151719764021]
畳み込みニューラルネットワーク(CNN)は相反する性質を示すことが示されている。
CNNが予測をしながら色情報に大きく依存していることを実証します。
congruent, greyscale, incongruent画像の合同画像で学習したモデルを評価する。
論文 参考訳(メタデータ) (2020-12-12T22:55:06Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。