論文の概要: Do computer vision foundation models learn the low-level characteristics of the human visual system?
- arxiv url: http://arxiv.org/abs/2502.20256v2
- Date: Tue, 11 Mar 2025 21:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:37.799602
- Title: Do computer vision foundation models learn the low-level characteristics of the human visual system?
- Title(参考訳): コンピュータビジョン基礎モデルは人間の視覚システムの低レベル特性を学習するか?
- Authors: Yancheng Cai, Fei Yin, Dounia Hammou, Rafal Mantiuk,
- Abstract要約: DINOやOpenCLIPといったコンピュータビジョンファウンデーションモデルは、大規模な画像データセット上で自己監督的な方法で訓練される。
自然画像に基づいて訓練された基礎モデルが、人間の視覚システムの低レベル特性の一部を模倣しているかどうかという問題に対処する。
- 参考スコア(独自算出の注目度): 12.938875245555952
- License:
- Abstract: Computer vision foundation models, such as DINO or OpenCLIP, are trained in a self-supervised manner on large image datasets. Analogously, substantial evidence suggests that the human visual system (HVS) is influenced by the statistical distribution of colors and patterns in the natural world, characteristics also present in the training data of foundation models. The question we address in this paper is whether foundation models trained on natural images mimic some of the low-level characteristics of the human visual system, such as contrast detection, contrast masking, and contrast constancy. Specifically, we designed a protocol comprising nine test types to evaluate the image encoders of 45 foundation and generative models. Our results indicate that some foundation models (e.g., DINO, DINOv2, and OpenCLIP), share some of the characteristics of human vision, but other models show little resemblance. Foundation models tend to show smaller sensitivity to low contrast and rather irregular responses to contrast across frequencies. The foundation models show the best agreement with human data in terms of contrast masking. Our findings suggest that human vision and computer vision may take both similar and different paths when learning to interpret images of the real world. Overall, while differences remain, foundation models trained on vision tasks start to align with low-level human vision, with DINOv2 showing the closest resemblance.
- Abstract(参考訳): DINOやOpenCLIPといったコンピュータビジョンファウンデーションモデルは、大規模な画像データセット上で自己監督的な方法で訓練される。
対照的に、人間の視覚システム(HVS)が自然界における色やパターンの統計的分布に影響されているという証拠は、基礎モデルのトレーニングデータにも存在している。
本稿では, 自然画像を用いた基礎モデルが, コントラスト検出, コントラストマスキング, コントラスト等, 人間の視覚システムの低レベル特性を模倣しているかどうかを問う。
具体的には、45の基礎および生成モデルのイメージエンコーダを評価するために、9種類のテストタイプからなるプロトコルを設計した。
以上の結果から,基礎モデル(例えば,DINO,DINOv2,OpenCLIP)には人間の視覚特性が共通しているが,他のモデルとはほとんど類似していないことが示唆された。
基礎モデルは低コントラストに対する感度が小さく、周波数間のコントラストに対する反応が不規則である傾向がある。
基礎モデルは、コントラストマスキングの観点で人間のデータと最高の一致を示している。
人間の視覚とコンピュータビジョンは、現実世界の画像の解釈を学習する際に、類似した経路と異なる経路を取る可能性があることを示唆している。
全体としては違いはあるものの、視覚タスクで訓練された基礎モデルは低レベルの人間の視覚と一致し始め、DINOv2は最も近い類似性を示している。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect [2.3622884172290255]
近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。
本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
論文 参考訳(メタデータ) (2024-05-25T08:38:30Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - Divergences in Color Perception between Deep Neural Networks and Humans [3.0315685825606633]
我々はディープニューラルネットワーク(DNN)におけるカラー埋め込みの知覚的コヒーレンスを評価する実験を開発した。
これらのアルゴリズムがオンライン調査によって収集された人間の色類似性判定の精度を評価する。
本研究では,ウェーブレット分解に基づく色知覚モデルとDNN性能を比較した。
論文 参考訳(メタデータ) (2023-09-11T20:26:40Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Do DNNs trained on Natural Images acquire Gestalt Properties? [0.6091702876917281]
人間の視覚の魅力的なモデルとして、自然画像に基づいて訓練されたディープニューラルネットワーク(DNN)が提案されている。
差別判断において人間とDNNの反応を比較した。
その結果, 自然画像に基づいてトレーニングしたネットワークは, 分類の最終段階において, 形状に敏感であることがわかった。
論文 参考訳(メタデータ) (2022-03-14T17:06:11Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。