論文の概要: Contour Integration Underlies Human-Like Vision
- arxiv url: http://arxiv.org/abs/2504.05253v1
- Date: Mon, 07 Apr 2025 16:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:55.662650
- Title: Contour Integration Underlies Human-Like Vision
- Title(参考訳): 輪郭統合は人間のようなビジョンの基盤となる
- Authors: Ben Lonnqvist, Elsa Scialom, Abdulkadir Gokce, Zehra Merchant, Michael H. Herzog, Martin Schrimpf,
- Abstract要約: 人間は、物体の輪郭がほとんどなくても、高精度に行動する。
人間は統合バイアスを示します -- 方向のないフラグメントよりも、方向のないフラグメントで構成されたオブジェクトを認識することを好むのです。
- 参考スコア(独自算出の注目度): 2.6716072974490794
- License:
- Abstract: Despite the tremendous success of deep learning in computer vision, models still fall behind humans in generalizing to new input distributions. Existing benchmarks do not investigate the specific failure points of models by analyzing performance under many controlled conditions. Our study systematically dissects where and why models struggle with contour integration -- a hallmark of human vision -- by designing an experiment that tests object recognition under various levels of object fragmentation. Humans (n=50) perform at high accuracy, even with few object contours present. This is in contrast to models which exhibit substantially lower sensitivity to increasing object contours, with most of the over 1,000 models we tested barely performing above chance. Only at very large scales ($\sim5B$ training dataset size) do models begin to approach human performance. Importantly, humans exhibit an integration bias -- a preference towards recognizing objects made up of directional fragments over directionless fragments. We find that not only do models that share this property perform better at our task, but that this bias also increases with model training dataset size, and training models to exhibit contour integration leads to high shape bias. Taken together, our results suggest that contour integration is a hallmark of object vision that underlies object recognition performance, and may be a mechanism learned from data at scale.
- Abstract(参考訳): コンピュータビジョンにおけるディープラーニングの驚異的な成功にもかかわらず、モデルは新たな入力分布への一般化において、まだ人間に遅れを取っている。
既存のベンチマークでは、多くの制御条件下での性能を分析することで、モデルの特定の障害点を調査していない。
我々の研究では、さまざまなレベルのオブジェクトの断片化の下でオブジェクト認識をテストする実験を設計することで、モデルが輪郭統合(人間の視覚の目印)に苦労する場所と理由を体系的に判別する。
人間(n=50)は、少ない物体の輪郭でも高い精度で行動する。
これは、オブジェクトの輪郭の増加に対する感度が著しく低いモデルとは対照的です。
非常に大規模な(トレーニングデータセットサイズ$\sim5B)モデルだけが、人間のパフォーマンスにアプローチし始めます。
重要なことは、人間は統合バイアスを示します -- 方向のないフラグメントよりも方向のないフラグメントで構成されたオブジェクトを認識することを優先します。
この特性を共有するモデルが我々のタスクで優れているだけでなく、モデルトレーニングデータセットのサイズによってこのバイアスが増加し、輪郭統合を示すトレーニングモデルも高い形状バイアスをもたらすことが分かっています。
この結果から,輪郭統合はオブジェクト認識性能の基盤となるオブジェクトビジョンの目印であり,大規模データから学習されるメカニズムである可能性が示唆された。
関連論文リスト
- Targeted Hard Sample Synthesis Based on Estimated Pose and Occlusion Error for Improved Object Pose Estimation [9.637714330461037]
モデルに依存しない新しいハードサンプル合成法を提案する。
本研究では,最先端ポーズ推定モデルを用いて,複数のROBIデータセットオブジェクトに対して最大20%の精度で検出率を向上することを示す。
論文 参考訳(メタデータ) (2024-12-05T16:00:55Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Improving Model's Focus Improves Performance of Deep Learning-Based
Synthetic Face Detectors [3.37387505927931]
エントロピーを低くすることで、モデルのフォーカスを改善することで、オープンセットのシナリオでより良く機能するモデルが得られることを示す。
また、モデルの損失関数が正規分類、モデルの焦点の低エントロピー、人間の指導力の3つの側面をブレンドした場合、最適性能が得られることを示す。
論文 参考訳(メタデータ) (2023-03-01T20:39:46Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。