論文の概要: Adopting a human developmental visual diet yields robust, shape-based AI vision
- arxiv url: http://arxiv.org/abs/2507.03168v1
- Date: Thu, 03 Jul 2025 20:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.605422
- Title: Adopting a human developmental visual diet yields robust, shape-based AI vision
- Title(参考訳): 人間の発達的視覚的食生活の採用は、堅牢で形状に基づくAIビジョンをもたらす
- Authors: Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann,
- Abstract要約: 長年の研究にもかかわらず、人工知能(AI)システムと人間の視覚の重大な相違が続いている。
私たちは、人間の視覚が幼少期から成人期へどのように発達するかからインスピレーションを受けます。
我々は、この人間にインスパイアされたカリキュラムを通してAIシステムを導くことは、人間の行動と密接に一致したモデルを生み出すことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite years of research and the dramatic scaling of artificial intelligence (AI) systems, a striking misalignment between artificial and human vision persists. Contrary to humans, AI heavily relies on texture-features rather than shape information, lacks robustness to image distortions, remains highly vulnerable to adversarial attacks, and struggles to recognise simple abstract shapes within complex backgrounds. To close this gap, we here introduce a solution that arises from a previously underexplored direction: rather than scaling up, we take inspiration from how human vision develops from early infancy into adulthood. We quantified the visual maturation by synthesising decades of psychophysical and neurophysiological research into a novel developmental visual diet (DVD) for AI vision. We show that guiding AI systems through this human-inspired curriculum produces models that closely align with human behaviour on every hallmark of robust vision tested yielding the strongest reported reliance on shape information to date, abstract shape recognition beyond the state of the art, higher robustness to image corruptions, and stronger resilience to adversarial attacks. By outperforming high parameter AI foundation models trained on orders of magnitude more data, we provide evidence that robust AI vision can be achieved by guiding the way how a model learns, not merely how much it learns, offering a resource-efficient route toward safer and more human-like artificial visual systems.
- Abstract(参考訳): 長年の研究と人工知能(AI)システムの劇的なスケールにもかかわらず、人工と人間の視覚の重大な相違は続いている。
人間とは対照的に、AIは形状情報よりもテクスチャ機能に強く依存しており、画像の歪みに対する堅牢性に欠けており、敵の攻撃に対して非常に脆弱であり、複雑な背景の中で単純な抽象的な形状を認識するのに苦労している。
このギャップを埋めるために、これまで未解明だった方向から生じる解決策を紹介します。スケールアップするのではなく、人間のビジョンが幼少期から成人期へとどのように発展していくかからインスピレーションを受けます。
我々は、何十年にもわたっての精神物理学・神経生理学的研究をAIビジョンのための新しい発達視覚ダイエット(DVD)に合成し、視覚成熟度を定量化した。
この人間にインスパイアされたカリキュラムを通したAIシステムの指導は、これまでの形状情報への最も強い依存、最先端以上の抽象的な形状認識、画像の腐敗に対する高い堅牢性、敵の攻撃に対する強力なレジリエンスをもたらす、堅牢な視覚のすべての指標において、人間の行動と密に一致したモデルを生成することを示す。
膨大なデータに基づいてトレーニングされた高パラメータのAIファンデーションモデルを上回ることで、モデルがどのように学習するかを導くだけでなく、より安全で人間らしい人工視覚システムへのリソース効率の高いルートを提供することによって、堅牢なAIビジョンが達成できる証拠を提供する。
関連論文リスト
- Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Probing Human Visual Robustness with Neurally-Guided Deep Neural Networks [18.994287352758697]
人間は力ずくでダイナミックな視覚世界をナビゲートするが、深層ニューラルネットワーク(DNN)は驚くほど小さなイメージの摂動に弱い。
過去の理論は、人間の視覚的堅牢性は、脳の腹側視覚ストリーム(VVS)に沿って進化する表現空間から生じ、ますます許容される物体の変換によって生じることを示唆している。
DNNのロバスト性は階層的に改善され,高次VVS領域との整合性が向上する。
論文 参考訳(メタデータ) (2024-05-04T04:33:20Z) - Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Achieving More Human Brain-Like Vision via Human EEG Representational Alignment [1.811217832697894]
非侵襲脳波に基づく人間の脳活動に対応する視覚モデル「Re(presentational)Al(ignment)net」を提案する。
我々の革新的な画像から脳への多層符号化フレームワークは、複数のモデル層を最適化することにより、人間の神経のアライメントを向上する。
我々の発見は、ReAlnetが人工と人間の視覚のギャップを埋め、より脳に似た人工知能システムへの道を歩むブレークスルーを表していることを示唆している。
論文 参考訳(メタデータ) (2024-01-30T18:18:41Z) - Exploring the Naturalness of AI-Generated Images [59.04528584651131]
我々は、AI生成画像の視覚的自然性をベンチマークし、評価する第一歩を踏み出した。
本研究では,人間の評価を整列するAGIの自然性を自動予測するジョイント・オブジェクト・イメージ・ナチュラルネス評価器(JOINT)を提案する。
その結果,JOINTは自然性評価において,より主観的に一貫した結果を提供するために,ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-12-09T06:08:09Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Degraded Polygons Raise Fundamental Questions of Neural Network Perception [5.423100066629618]
我々は、30年以上前に人間の視覚の認識・コンポーネント理論で導入された、劣化中の画像の復元作業を再考する。
周辺劣化した正多角形の大規模データセットを高速に生成するための自動形状復元テストを実装した。
この単純なタスクにおけるニューラルネットワークの振舞いは、人間の振舞いと矛盾する。
論文 参考訳(メタデータ) (2023-06-08T06:02:39Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。