論文の概要: Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?
- arxiv url: http://arxiv.org/abs/2510.24709v1
- Date: Tue, 28 Oct 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.33368
- Title: Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?
- Title(参考訳): 物体結合は大きな事前学習型視覚変換器に自然に現れるか?
- Authors: Yihao Li, Saeed Salehi, Lyle Ungar, Konrad P. Kording,
- Abstract要約: 事前学習された視覚変換器(ViT)にオブジェクトバインディングが出現することを示す。
その結果,IsSameObjectはオブジェクト上の低次元部分空間に符号化されており,この信号が注目を集めていることがわかった。
我々の研究は、ViTがオブジェクト結合を欠いているという見解に挑戦し、コネクショナリストシステムにおいて「どの部分が一緒に属しているか」という象徴的な知識がどのように自然に現れるかを強調した。
- 参考スコア(独自算出の注目度): 11.078284195461578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object binding, the brain's ability to bind the many features that collectively represent an object into a coherent whole, is central to human cognition. It groups low-level perceptual features into high-level object representations, stores those objects efficiently and compositionally in memory, and supports human reasoning about individual object instances. While prior work often imposes object-centric attention (e.g., Slot Attention) explicitly to probe these benefits, it remains unclear whether this ability naturally emerges in pre-trained Vision Transformers (ViTs). Intuitively, they could: recognizing which patches belong to the same object should be useful for downstream prediction and thus guide attention. Motivated by the quadratic nature of self-attention, we hypothesize that ViTs represent whether two patches belong to the same object, a property we term IsSameObject. We decode IsSameObject from patch embeddings across ViT layers using a similarity probe, which reaches over 90% accuracy. Crucially, this object-binding capability emerges reliably in self-supervised ViTs (DINO, MAE, CLIP), but markedly weaker in ImageNet-supervised models, suggesting that binding is not a trivial architectural artifact, but an ability acquired through specific pretraining objectives. We further discover that IsSameObject is encoded in a low-dimensional subspace on top of object features, and that this signal actively guides attention. Ablating IsSameObject from model activations degrades downstream performance and works against the learning objective, implying that emergent object binding naturally serves the pretraining objective. Our findings challenge the view that ViTs lack object binding and highlight how symbolic knowledge of "which parts belong together" emerges naturally in a connectionist system.
- Abstract(参考訳): 物体の結合は、物体を集合的にコヒーレントな全体へ結合する脳の機能であり、人間の認知の中心である。
低レベルの知覚的特徴を高レベルのオブジェクト表現に分類し、それらのオブジェクトを効率的に構成的にメモリに格納し、個々のオブジェクトインスタンスに関する人間の推論をサポートする。
事前の作業では、これらのメリットを明示的に調査するためにオブジェクト中心の注意(例えば、スロット注意)が課されることが多いが、この能力が事前訓練されたビジョントランスフォーマー(ViT)に自然に現れるかどうかは不明だ。
直感的には、同じオブジェクトに属するパッチを認識することは、下流の予測に役立ち、注意を誘導する。
自己アテンションの二次的な性質に触発され、2つのパッチが同じオブジェクトに属しているかどうかを示すViTは、IsSameObjectと呼ばれる性質である、という仮説を立てる。
IsSameObjectは、類似性プローブを使用して、ViT層にまたがるパッチ埋め込みからデコードします。
重要なのは、このオブジェクトバインディング機能は自己教師型ViT(DINO、MAE、CLIP)で確実に現れるが、ImageNet教師型モデルでは著しく弱い。
さらに、IsSameObjectはオブジェクトの特徴の上に低次元のサブ空間にエンコードされており、このシグナルが注目を集めていることがわかりました。
IsSameObjectをモデルアクティベーションから非難することは、下流のパフォーマンスを低下させ、学習目標に対して作用する。
我々の研究は、ViTがオブジェクト結合を欠いているという見解に挑戦し、コネクショナリストシステムにおいて「どの部分が一緒に属しているか」という象徴的な知識がどのように自然に現れるかを強調した。
関連論文リスト
- Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。
VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文 参考訳(メタデータ) (2025-03-12T21:57:41Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。