論文の概要: Are We Done with Object-Centric Learning?
- arxiv url: http://arxiv.org/abs/2504.07092v2
- Date: Thu, 10 Apr 2025 21:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:43.943328
- Title: Are We Done with Object-Centric Learning?
- Title(参考訳): オブジェクト中心学習は可能か?
- Authors: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh,
- Abstract要約: オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
- 参考スコア(独自算出の注目度): 65.67948794110212
- License:
- Abstract: Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available here: https://github.com/AlexanderRubinstein/OCCAM.
- Abstract(参考訳): オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
このアプローチは、アウト・オブ・ディストリビューション(OOD)の一般化、サンプル効率のよい構成、構造化環境のモデリングなど、様々な目的を支えている。
ほとんどの研究は、対象を表現空間内の離散スロットに分割する教師なしのメカニズムの開発に重点を置いており、教師なしの物体発見を用いて評価されている。
しかし、最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
これは、OODオブジェクト探索ベンチマークで顕著なゼロショットパフォーマンスを実現し、基礎モデルにスケーラブルで、さまざまなスロットを最初から扱える。
したがって、オブジェクト指向表現を得るためのOCL法の目的は、大半が達成されている。
シーン内でオブジェクトを分離する能力は、OOD一般化のようなより広範なOCL目標にどのように寄与するのか?
本研究は,OCLのレンズを通した背景刺激によるOOD一般化の課題を考察することによって,この問題に対処する。
我々は,OCCAM (Object-Centric Classification with Applied Masks) と呼ばれる新しい学習用プローブを提案する。
しかし、現実世界のアプリケーションにおける課題は残っている。
我々は、OCLコミュニティがスケーラブルなオブジェクト中心表現を使用するためのツールボックスを提供し、人間の認識におけるオブジェクト認識の理解など、実践的な応用や基本的な問題に焦点をあてる。
私たちのコードは、https://github.com/AlexanderRubinstein/OCCAM.comで利用可能です。
関連論文リスト
- Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning [28.368429312400885]
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T07:07:29Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。