論文の概要: I Walk the Line: Examining the Role of Gestalt Continuity in Object Binding for Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.09942v1
- Date: Fri, 10 Apr 2026 22:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.757039
- Title: I Walk the Line: Examining the Role of Gestalt Continuity in Object Binding for Vision Transformers
- Title(参考訳): I Walk the Line: 視覚変換器の物体結合におけるゲシュタルト連続性の役割の検討
- Authors: Alexa R. Tartaglini, Michael A. Lepori,
- Abstract要約: 結合プローブは、広範囲の事前学習された視覚変換器の連続性に敏感であることを示す。
次に、連続性を追跡する特定の注意ヘッドを発見し、これらのヘッドがデータセット全体にわたって一般化されていることを示す。
我々はこれらの注目のヘッドをアブレーションし、オブジェクトバインディングをエンコードする表現の生成にしばしば貢献することを示す。
- 参考スコア(独自算出の注目度): 5.684409853507593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object binding is a foundational process in visual cognition, during which low-level perceptual features are joined into object representations. Binding has been considered a fundamental challenge for neural networks, and a major milestone on the way to artificial models with flexible visual intelligence. Recently, several investigations have demonstrated evidence that binding mechanisms emerge in pretrained vision models, enabling them to associate portions of an image that contain an object. The question remains: how are these models binding objects together? In this work, we investigate whether vision models rely on the principle of Gestalt continuity to perform object binding, over and above other principles like similarity and proximity. Using synthetic datasets, we demonstrate that binding probes are sensitive to continuity across a wide range of pretrained vision transformers. Next, we uncover particular attention heads that track continuity, and show that these heads generalize across datasets. Finally, we ablate these attention heads, and show that they often contribute to producing representations that encode object binding.
- Abstract(参考訳): オブジェクトバインディングは視覚認知の基本的なプロセスであり、低レベルの知覚的特徴がオブジェクト表現に結合される。
バインディングはニューラルネットワークの基本的な課題と考えられており、フレキシブルなビジュアルインテリジェンスを備えた人工モデルへの道のりの大きなマイルストーンである。
近年、いくつかの研究では、事前訓練された視覚モデルに結合機構が出現し、物体を含む画像の一部を関連付けることが実証されている。
これらのモデルはどのようにオブジェクトを結合するのか?
本研究では,視覚モデルがオブジェクトバインディングの実行にゲシュタルト連続性(Gestalt continuity)の原理に依存しているかどうかを検討する。
合成データセットを用いて、結合プローブは様々な事前学習された視覚変換器の連続性に敏感であることを示す。
次に、連続性を追跡する特定の注意ヘッドを発見し、これらのヘッドがデータセット全体にわたって一般化されていることを示す。
最後に、これらのアテンションヘッドをアブレーションし、オブジェクトバインディングをエンコードする表現の生成にしばしば貢献することを示す。
関連論文リスト
- Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers? [11.078284195461578]
事前学習された視覚変換器(ViT)にオブジェクトバインディングが出現することを示す。
その結果,IsSameObjectはオブジェクト上の低次元部分空間に符号化されており,この信号が注目を集めていることがわかった。
我々の研究は、ViTがオブジェクト結合を欠いているという見解に挑戦し、コネクショナリストシステムにおいて「どの部分が一緒に属しているか」という象徴的な知識がどのように自然に現れるかを強調した。
論文 参考訳(メタデータ) (2025-10-28T17:57:05Z) - Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文 参考訳(メタデータ) (2025-05-27T18:09:02Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of
Articulated Objects [73.23249640099516]
複数視点からの移動を観察することで,これまで見えなかった物体の外観と構造の両方を学習する。
我々の洞察では、互いに相対的に動く隣り合う部分は関節で繋がらなければならない。
本手法は,四足歩行から単腕ロボット,人間に至るまで,さまざまな構造に対して有効であることを示す。
論文 参考訳(メタデータ) (2021-12-21T16:37:48Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。