論文の概要: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning
- arxiv url: http://arxiv.org/abs/2303.17842v1
- Date: Fri, 31 Mar 2023 07:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:59:56.544422
- Title: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning
- Title(参考訳): オブジェクトへのシェパーディングスロット:安定的でロバストなオブジェクト中心学習を目指して
- Authors: Jinwoo Kim, Janghyuk Choi, Ho-Jin Choi, Seon Joo Kim
- Abstract要約: シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
- 参考スコア(独自算出の注目度): 28.368429312400885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric learning (OCL) aspires general and compositional understanding
of scenes by representing a scene as a collection of object-centric
representations. OCL has also been extended to multi-view image and video
datasets to apply various data-driven inductive biases by utilizing geometric
or temporal information in the multi-image data. Single-view images carry less
information about how to disentangle a given scene than videos or multi-view
images do. Hence, owing to the difficulty of applying inductive biases, OCL for
single-view images remains challenging, resulting in inconsistent learning of
object-centric representation. To this end, we introduce a novel OCL framework
for single-view images, SLot Attention via SHepherding (SLASH), which consists
of two simple-yet-effective modules on top of Slot Attention. The new modules,
Attention Refining Kernel (ARK) and Intermediate Point Predictor and Encoder
(IPPE), respectively, prevent slots from being distracted by the background
noise and indicate locations for slots to focus on to facilitate learning of
object-centric representation. We also propose a weak semi-supervision approach
for OCL, whilst our proposed framework can be used without any assistant
annotation during the inference. Experiments show that our proposed method
enables consistent learning of object-centric representation and achieves
strong performance across four datasets. Code is available at
\url{https://github.com/object-understanding/SLASH}.
- Abstract(参考訳): オブジェクト中心学習(OCL)は、シーンをオブジェクト中心の表現の集合として表現することで、シーンの一般的および構成的理解を促進する。
OCLは、マルチビュー画像やビデオデータセットにも拡張され、マルチイメージデータの幾何学的情報や時間的情報を利用して、様々なデータ駆動帰納バイアスを適用している。
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
したがって、誘導バイアスを適用することの難しさから、単一視点画像のOCLは依然として困難であり、オブジェクト中心表現の一貫性のない学習をもたらす。
そこで本稿では,S Hepherding (SLASH) を用いた単一視点画像のための新しいOCLフレームワークを提案する。
新しいモジュールである attention refining kernel (ark) と intermediate point predictor and encoder (ippe) はそれぞれ、バックグラウンドノイズによってスロットが邪魔にならないようにし、オブジェクト中心表現の学習を容易にするためにスロットが集中する場所を示す。
また,OCLに対して弱い半スーパービジョンアプローチを提案する一方,提案フレームワークは推論中にアシスタントアノテーションを使わずに使用できる。
実験により,提案手法はオブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現することを示す。
コードは \url{https://github.com/object-understanding/slash} で入手できる。
関連論文リスト
- UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - CrIBo: Self-Supervised Learning via Cross-Image Object-Level
Bootstrapping [40.94237853380154]
本稿では,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ法を提案する。
CrIBoは、テスト時に最も近い隣人検索を利用して、コンテキスト内学習の特に強力で適切な候補として現れる。
論文 参考訳(メタデータ) (2023-10-11T19:57:51Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。