論文の概要: Object-Aware DINO (Oh-A-Dino): Enhancing Self-Supervised Representations for Multi-Object Instance Retrieval
- arxiv url: http://arxiv.org/abs/2503.09867v2
- Date: Sun, 16 Mar 2025 01:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:45.293090
- Title: Object-Aware DINO (Oh-A-Dino): Enhancing Self-Supervised Representations for Multi-Object Instance Retrieval
- Title(参考訳): オブジェクト認識型DINO(Oh-A-Dino):マルチオブジェクトインスタンス検索のための自己スーパーバイザ表現の強化
- Authors: Stefan Sylvius Wagner, Stefan Harmeling,
- Abstract要約: DINOのような自己監督型視覚モデルは、創発的なオブジェクト理解を示している。
DINO表現はグローバルなオブジェクト属性のキャプチャに優れていますが、色のようなオブジェクトレベルの詳細には苦労しています。
本稿では,DINO表現をオブジェクト中心の潜在ベクトルに拡張することで,グローバルな特徴と局所的な特徴を結合する手法を提案する。
- 参考スコア(独自算出の注目度): 1.4272411349249627
- License:
- Abstract: Object-centric learning is fundamental to human vision and crucial for models requiring complex reasoning. Traditional approaches rely on slot-based bottlenecks to learn object properties explicitly, while recent self-supervised vision models like DINO have shown emergent object understanding. However, DINO representations primarily capture global scene features, often confounding individual object attributes. We investigate the effectiveness of DINO representations and slot-based methods for multi-object instance retrieval. Our findings reveal that DINO representations excel at capturing global object attributes such as object shape and size, but struggle with object-level details like colour, whereas slot-based representations struggle at both global and object-level understanding. To address this, we propose a method that combines global and local features by augmenting DINO representations with object-centric latent vectors from a Variational Autoencoder trained on segmented image patches that are extracted from the DINO features. This approach improves multi-object instance retrieval performance, bridging the gap between global scene understanding and fine-grained object representation without requiring full model retraining.
- Abstract(参考訳): オブジェクト指向学習は人間の視覚の基本であり、複雑な推論を必要とするモデルにとって不可欠である。
従来のアプローチでは、オブジェクトプロパティを明示的に学習するためにスロットベースのボトルネックに依存していたが、最近のDINOのような自己監督型視覚モデルは、オブジェクトの理解を創発的に示している。
しかし、DINO表現は、主にグローバルなシーンの特徴を捉え、しばしば個々のオブジェクト属性をコンバウンドする。
マルチオブジェクト・インスタンス検索におけるDINO表現とスロットベース手法の有効性について検討する。
この結果から,DINO表現はオブジェクトの形状や大きさなどのグローバルな属性を捉えるのに優れるが,色のようなオブジェクトレベルの細部に苦しむのに対して,スロットベースの表現はグローバルな理解とオブジェクトレベルの理解の両方に苦しむことがわかった。
そこで本研究では,DINO特徴から抽出した分割画像パッチに基づいて訓練された変分オートエンコーダから,DINO表現をオブジェクト中心の潜在ベクトルに拡張することで,グローバルな特徴と局所的な特徴を組み合わせた手法を提案する。
このアプローチは,大域的なシーン理解と細粒度オブジェクト表現のギャップを,完全なモデル再学習を必要とせずに埋める,多目的のインスタンス検索性能を向上させる。
関連論文リスト
- Bootstrapping Top-down Information for Self-modulating Slot Attention [29.82550058869251]
トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。
この経路は個々のオブジェクトのセマンティクスをブートストラップし、モデルを変更してこれらのセマンティクスに関連する特徴を優先順位付けする。
我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-04T05:00:49Z) - Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。