論文の概要: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning
- arxiv url: http://arxiv.org/abs/2303.17842v1
- Date: Fri, 31 Mar 2023 07:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:59:56.544422
- Title: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning
- Title(参考訳): オブジェクトへのシェパーディングスロット:安定的でロバストなオブジェクト中心学習を目指して
- Authors: Jinwoo Kim, Janghyuk Choi, Ho-Jin Choi, Seon Joo Kim
- Abstract要約: シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
- 参考スコア(独自算出の注目度): 28.368429312400885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric learning (OCL) aspires general and compositional understanding
of scenes by representing a scene as a collection of object-centric
representations. OCL has also been extended to multi-view image and video
datasets to apply various data-driven inductive biases by utilizing geometric
or temporal information in the multi-image data. Single-view images carry less
information about how to disentangle a given scene than videos or multi-view
images do. Hence, owing to the difficulty of applying inductive biases, OCL for
single-view images remains challenging, resulting in inconsistent learning of
object-centric representation. To this end, we introduce a novel OCL framework
for single-view images, SLot Attention via SHepherding (SLASH), which consists
of two simple-yet-effective modules on top of Slot Attention. The new modules,
Attention Refining Kernel (ARK) and Intermediate Point Predictor and Encoder
(IPPE), respectively, prevent slots from being distracted by the background
noise and indicate locations for slots to focus on to facilitate learning of
object-centric representation. We also propose a weak semi-supervision approach
for OCL, whilst our proposed framework can be used without any assistant
annotation during the inference. Experiments show that our proposed method
enables consistent learning of object-centric representation and achieves
strong performance across four datasets. Code is available at
\url{https://github.com/object-understanding/SLASH}.
- Abstract(参考訳): オブジェクト中心学習(OCL)は、シーンをオブジェクト中心の表現の集合として表現することで、シーンの一般的および構成的理解を促進する。
OCLは、マルチビュー画像やビデオデータセットにも拡張され、マルチイメージデータの幾何学的情報や時間的情報を利用して、様々なデータ駆動帰納バイアスを適用している。
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
したがって、誘導バイアスを適用することの難しさから、単一視点画像のOCLは依然として困難であり、オブジェクト中心表現の一貫性のない学習をもたらす。
そこで本稿では,S Hepherding (SLASH) を用いた単一視点画像のための新しいOCLフレームワークを提案する。
新しいモジュールである attention refining kernel (ark) と intermediate point predictor and encoder (ippe) はそれぞれ、バックグラウンドノイズによってスロットが邪魔にならないようにし、オブジェクト中心表現の学習を容易にするためにスロットが集中する場所を示す。
また,OCLに対して弱い半スーパービジョンアプローチを提案する一方,提案フレームワークは推論中にアシスタントアノテーションを使わずに使用できる。
実験により,提案手法はオブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現することを示す。
コードは \url{https://github.com/object-understanding/slash} で入手できる。
関連論文リスト
- Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - PooDLe: Pooled and dense self-supervised learning from naturalistic videos [32.656425302538835]
本稿では,プール表現における不変性に基づくSSL目的と高密度SSL目標とを組み合わせた新しいアプローチを提案する。
BDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-20T21:40:48Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - CrIBo: Self-Supervised Learning via Cross-Image Object-Level
Bootstrapping [40.94237853380154]
本稿では,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ法を提案する。
CrIBoは、テスト時に最も近い隣人検索を利用して、コンテキスト内学習の特に強力で適切な候補として現れる。
論文 参考訳(メタデータ) (2023-10-11T19:57:51Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。