論文の概要: Finding Distributed Object-Centric Properties in Self-Supervised Transformers
- arxiv url: http://arxiv.org/abs/2603.26127v1
- Date: Fri, 27 Mar 2026 07:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.383014
- Title: Finding Distributed Object-Centric Properties in Self-Supervised Transformers
- Title(参考訳): 自己監督型変圧器における分散物体中心特性の探索
- Authors: Samyak Rawlekar, Amitabh Swain, Yujun Cai, Yiwei Wang, Ming-Hsuan Yang, Narendra Ahuja,
- Abstract要約: 自己監督型視覚変換器(ViT)は、最終層のトークンアテンションマップでよく見られる、オブジェクトを発見できる創発的な能力を示す。
これは、[]トークンがイメージレベルの目的に基づいてトレーニングされ、オブジェクトにフォーカスするのではなく、全体像を要約しているためです。
我々は、この分散オブジェクト中心情報を抽出するトレーニング不要なObject-DINOを提案する。
- 参考スコア(独自算出の注目度): 59.00547715011873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised Vision Transformers (ViTs) like DINO show an emergent ability to discover objects, typically observed in [CLS] token attention maps of the final layer. However, these maps often contain spurious activations resulting in poor localization of objects. This is because the [CLS] token, trained on an image-level objective, summarizes the entire image instead of focusing on objects. This aggregation dilutes the object-centric information existing in the local, patch-level interactions. We analyze this by computing inter-patch similarity using patch-level attention components (query, key, and value) across all layers. We find that: (1) Object-centric properties are encoded in the similarity maps derived from all three components ($q, k, v$), unlike prior work that uses only key features or the [CLS] token. (2) This object-centric information is distributed across the network, not just confined to the final layer. Based on these insights, we introduce Object-DINO, a training-free method that extracts this distributed object-centric information. Object-DINO clusters attention heads across all layers based on the similarities of their patches and automatically identifies the object-centric cluster corresponding to all objects. We demonstrate Object-DINO's effectiveness on two applications: enhancing unsupervised object discovery (+3.6 to +12.4 CorLoc gains) and mitigating object hallucination in Multimodal Large Language Models by providing visual grounding. Our results demonstrate that using this distributed object-centric information improves downstream tasks without additional training.
- Abstract(参考訳): DINOのような自己監督型視覚変換器(ViT)は、最終層の[CLS]トークンアテンションマップでよく見られるように、オブジェクトを発見できる創発的な能力を示している。
しかし、これらの写像はしばしば急激な活性化を伴い、結果として対象の局所性が劣る。
これは、画像レベルの目的に基づいてトレーニングされた[CLS]トークンが、オブジェクトではなく、イメージ全体を要約しているためです。
このアグリゲーションは、局所的、パッチレベルの相互作用に存在するオブジェクト中心の情報を希薄化する。
パッチレベルのアテンションコンポーネント(クエリ、キー、値)をすべてのレイヤにわたって使用して、パッチ間の類似性を計算してこれを解析する。
1) 重要な特徴や[CLS]トークンのみを使用する以前の作業とは異なり、オブジェクト中心のプロパティは、すべての3つのコンポーネント(q, k, v$)から導かれる類似性マップにエンコードされている。
2) このオブジェクト中心の情報は、最終層に限らず、ネットワーク全体に分散されます。
これらの知見に基づいて,この分散オブジェクト中心情報を抽出するトレーニングフリーな手法であるObject-DINOを紹介する。
Object-DINOクラスタは、パッチの類似性に基づいてすべてのレイヤに注目し、すべてのオブジェクトに対応するオブジェクト中心のクラスタを自動的に識別する。
我々は、教師なしオブジェクト発見(+3.6から+12.4 CorLocゲイン)の強化と、視覚的なグラウンドニングを提供することで、マルチモーダル大言語モデルにおけるオブジェクト幻覚の緩和という2つのアプリケーションにおけるObject-DINOの有効性を実証する。
この分散オブジェクト中心情報を用いることで、付加的なトレーニングを伴わずに下流タスクを改善できることを示す。
関連論文リスト
- Object-level Correlation for Few-Shot Segmentation [37.247888341920984]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートサンプルが与えられたクエリイメージにおいて、新しいカテゴリのオブジェクトをセグメントすることを目的としている。
本稿では,対象オブジェクトと問い合わせ対象オブジェクトのオブジェクトレベルの相関性を確立することによって,オブジェクトレベルの相関ネットワーク(OCNet)を提案する。
生成されたオブジェクトレベルの相関は、クエリターゲット特徴をマイニングし、最終的な予測のためにハードピクセルノイズを抑制することができる。
論文 参考訳(メタデータ) (2025-09-09T16:58:28Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。