論文の概要: Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts
- arxiv url: http://arxiv.org/abs/2505.13281v1
- Date: Mon, 19 May 2025 16:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.718395
- Title: Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts
- Title(参考訳): コンピュータビジョンモデルによる幾何学的・トポロジカルな概念に対する人間的な感性
- Authors: Zekun Wang, Sashank Varma,
- Abstract要約: コンピュータビジョンモデルと幾何学的・トポロジカル(GT)概念に対する人間の感度について検討する。
私たちは、大規模な画像データセットに基づいてトレーニングされたコンピュータビジョンモデルを使用します。
トランスフォーマーベースのモデルは、幼児よりも高い総合的精度を達成する。
- 参考スコア(独自算出の注目度): 1.935452308279137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid improvement of machine learning (ML) models, cognitive scientists are increasingly asking about their alignment with how humans think. Here, we ask this question for computer vision models and human sensitivity to geometric and topological (GT) concepts. Under the core knowledge account, these concepts are innate and supported by dedicated neural circuitry. In this work, we investigate an alternative explanation, that GT concepts are learned ``for free'' through everyday interaction with the environment. We do so using computer visions models, which are trained on large image datasets. We build on prior studies to investigate the overall performance and human alignment of three classes of models -- convolutional neural networks (CNNs), transformer-based models, and vision-language models -- on an odd-one-out task testing 43 GT concepts spanning seven classes. Transformer-based models achieve the highest overall accuracy, surpassing that of young children. They also show strong alignment with children's performance, finding the same classes of concepts easy vs. difficult. By contrast, vision-language models underperform their vision-only counterparts and deviate further from human profiles, indicating that na\"ive multimodality might compromise abstract geometric sensitivity. These findings support the use of computer vision models to evaluate the sufficiency of the learning account for explaining human sensitivity to GT concepts, while also suggesting that integrating linguistic and visual representations might have unpredicted deleterious consequences.
- Abstract(参考訳): 機械学習(ML)モデルの急速な改善により、認知科学者はますます、人間の考え方との整合性について尋ねている。
本稿では,コンピュータビジョンモデルと幾何学的・トポロジカル(GT)概念に対する人間の感受性について質問する。
コア知識の説明では、これらの概念は生まれつき、専用の神経回路によって支えられている。
本研究では,GT概念が環境との日常的な相互作用を通じて「自由」に学習される,という別の説明について考察する。
私たちは、大規模な画像データセットに基づいてトレーニングされたコンピュータビジョンモデルを使用します。
我々は,畳み込みニューラルネットワーク(CNN),トランスフォーマーベースモデル,ヴィジュアル言語モデルという3つのモデルの,7つのクラスにまたがる43のGT概念に関する,全体的なパフォーマンスと人間のアライメントについて,以前の研究に基づいて検討した。
トランスフォーマーベースのモデルは、幼児よりも高い総合的精度を達成する。
また、子供たちのパフォーマンスと強く一致し、同じ概念のクラスを見つけるのが簡単か難しいかのどちらかである。
対照的に、視覚言語モデルは視覚のみのモデルよりも優れており、人間のプロファイルからさらに逸脱している。
これらの知見は、GT概念に対する人間の感受性を説明するための学習アカウントの十分性を評価するためのコンピュータビジョンモデルの使用を支持し、言語的および視覚的表現の統合は、予測できない有害な結果をもたらす可能性があることを示唆している。
関連論文リスト
- Testing the limits of fine-tuning to improve reasoning in vision language models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
微調整は、他の視覚的特徴を持つデータや、他の認知領域におけるタスクに対する人間のような堅牢な一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect [2.3622884172290255]
近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。
本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
論文 参考訳(メタデータ) (2024-05-25T08:38:30Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Degraded Polygons Raise Fundamental Questions of Neural Network Perception [5.423100066629618]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Human alignment of neural network representations [28.32452075196472]
ニューラルネットワークで学習した表現と行動応答から推定される人間の心的表現のアライメントに影響を与える要因について検討する。
モデルスケールとアーキテクチャは基本的に人間の行動応答に影響を与えないことがわかった。
食物や動物などの人間の概念はニューラルネットワークによってよく表現されているのに対し、ロイヤルやスポーツ関連の物体はそうではない。
論文 参考訳(メタデータ) (2022-11-02T15:23:16Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Deep Reinforcement Learning Models Predict Visual Responses in the
Brain: A Preliminary Result [1.0323063834827415]
強化学習を用いてニューラルネットワークモデルをトレーニングし、3Dコンピュータゲームをプレイします。
これらの強化学習モデルは、初期視覚領域において、神経応答予測精度のスコアを得る。
対照的に、教師付きニューラルネットワークモデルでは、より高い視覚領域において、より優れた神経応答予測が得られる。
論文 参考訳(メタデータ) (2021-06-18T13:10:06Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。