論文の概要: From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models
- arxiv url: http://arxiv.org/abs/2506.00718v1
- Date: Sat, 31 May 2025 21:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.50564
- Title: From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models
- Title(参考訳): ローカル・クイズからグローバル・パーセプションへ:自己監督型視覚モデルにおける創発的ゲシュタルト組織
- Authors: Tianqin Li, Ziqi Wen, Leiran Song, Jun Liu, Zhi Jing, Tai Sing Lee,
- Abstract要約: 我々は、現代の視覚モデルが類似した行動を示すかどうか、そしてこれらがどのような訓練条件で現れるかを検討する。
Masked Autoencoding (MAE) で訓練された視覚変換器 (ViT) はゲシュタルト法則と整合したアクティベーションパターンを示す。
本研究では,局所的なテクスチャを保ちながら,地球規模の空間摂動に対する感受性を評価するためのディストーテッド空間関係テストベンチ(DiSRT)を紹介する。
- 参考スコア(独自算出の注目度): 7.7536110932446265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human vision organizes local cues into coherent global forms using Gestalt principles like closure, proximity, and figure-ground assignment -- functions reliant on global spatial structure. We investigate whether modern vision models show similar behaviors, and under what training conditions these emerge. We find that Vision Transformers (ViTs) trained with Masked Autoencoding (MAE) exhibit activation patterns consistent with Gestalt laws, including illusory contour completion, convexity preference, and dynamic figure-ground segregation. To probe the computational basis, we hypothesize that modeling global dependencies is necessary for Gestalt-like organization. We introduce the Distorted Spatial Relationship Testbench (DiSRT), which evaluates sensitivity to global spatial perturbations while preserving local textures. Using DiSRT, we show that self-supervised models (e.g., MAE, CLIP) outperform supervised baselines and sometimes even exceed human performance. ConvNeXt models trained with MAE also exhibit Gestalt-compatible representations, suggesting such sensitivity can arise without attention architectures. However, classification finetuning degrades this ability. Inspired by biological vision, we show that a Top-K activation sparsity mechanism can restore global sensitivity. Our findings identify training conditions that promote or suppress Gestalt-like perception and establish DiSRT as a diagnostic for global structure sensitivity across models.
- Abstract(参考訳): 人間の視覚は、グローバルな空間構造に依存する機能であるクロージャ、近接、および図形的割り当てといったゲシュタルト原理を用いて、局所的な手がかりをコヒーレントなグローバルな形式に整理する。
我々は、現代の視覚モデルが類似した行動を示すかどうか、そしてこれらがどのような訓練条件で現れるかを検討する。
Masked Autoencoding (MAE) で訓練された視覚変換器 (ViT) は, 照明的輪郭補完, 凸性嗜好, 動的フィギュアグラウンド分離など, ゲシュタルト法則と整合したアクティベーションパターンを示す。
計算基盤を探索するためには,グローバルな依存関係のモデリングがゲシュタルトのような組織に必要である,という仮説を立てる。
本研究では,局所的なテクスチャを保ちながら,地球規模の空間摂動に対する感受性を評価するためのディストーテッド空間関係テストベンチ(DiSRT)を紹介する。
DiSRTを用いて、自己教師付きモデル(例えば、MAE、CLIP)が教師付きベースラインを上回り、時には人間のパフォーマンスを上回ります。
MAEでトレーニングされたConvNeXtモデルもまたゲシュタルト互換の表現を示しており、注意アーキテクチャなしでそのような感度が生じる可能性があることを示唆している。
しかし、分類の微調整はこの能力を低下させる。
生体視覚にインスパイアされたTop-Kアクティベーション・スパーシティ機構は,グローバルな感度を回復できることを示す。
本研究は, ゲシュタルト様の知覚を促進または抑制する訓練条件を特定し, モデル間でのグローバルな構造感度の診断方法としてDiSRTを確立した。
関連論文リスト
- SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Self-Supervised Learning for Place Representation Generalization across
Appearance Changes [11.030196234282675]
本研究では,幾何学的変換に敏感な外観変化に対して頑健な学習特徴を自己指導的に検討する。
その結果,視覚的位置認識と視覚的位置認識の協調学習が,視覚的位置認識の競合に繋がることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-04T10:14:47Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Understanding Dynamics of Nonlinear Representation Learning and Its
Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。
我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。
我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文 参考訳(メタデータ) (2021-06-28T16:31:30Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。