Fugu-MT 論文翻訳(概要): Shepherding Slots to Objects: Towards Stable and Robust Object-Centric Learning

論文の概要: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric Learning

arxiv url: http://arxiv.org/abs/2303.17842v1
Date: Fri, 31 Mar 2023 07:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 14:59:56.544422
Title: Shepherding Slots to Objects: Towards Stable and Robust Object-Centric Learning
Title（参考訳）: オブジェクトへのシェパーディングスロット:安定的でロバストなオブジェクト中心学習を目指して
Authors: Jinwoo Kim, Janghyuk Choi, Ho-Jin Choi, Seon Joo Kim
Abstract要約: シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
参考スコア（独自算出の注目度）: 28.368429312400885
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object-centric learning (OCL) aspires general and compositional understanding of scenes by representing a scene as a collection of object-centric representations. OCL has also been extended to multi-view image and video datasets to apply various data-driven inductive biases by utilizing geometric or temporal information in the multi-image data. Single-view images carry less information about how to disentangle a given scene than videos or multi-view images do. Hence, owing to the difficulty of applying inductive biases, OCL for single-view images remains challenging, resulting in inconsistent learning of object-centric representation. To this end, we introduce a novel OCL framework for single-view images, SLot Attention via SHepherding (SLASH), which consists of two simple-yet-effective modules on top of Slot Attention. The new modules, Attention Refining Kernel (ARK) and Intermediate Point Predictor and Encoder (IPPE), respectively, prevent slots from being distracted by the background noise and indicate locations for slots to focus on to facilitate learning of object-centric representation. We also propose a weak semi-supervision approach for OCL, whilst our proposed framework can be used without any assistant annotation during the inference. Experiments show that our proposed method enables consistent learning of object-centric representation and achieves strong performance across four datasets. Code is available at \url{https://github.com/object-understanding/SLASH}.
Abstract（参考訳）: オブジェクト中心学習(OCL)は、シーンをオブジェクト中心の表現の集合として表現することで、シーンの一般的および構成的理解を促進する。 OCLは、マルチビュー画像やビデオデータセットにも拡張され、マルチイメージデータの幾何学的情報や時間的情報を利用して、様々なデータ駆動帰納バイアスを適用している。シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。したがって、誘導バイアスを適用することの難しさから、単一視点画像のOCLは依然として困難であり、オブジェクト中心表現の一貫性のない学習をもたらす。そこで本稿では,S Hepherding (SLASH) を用いた単一視点画像のための新しいOCLフレームワークを提案する。新しいモジュールである attention refining kernel (ark) と intermediate point predictor and encoder (ippe) はそれぞれ、バックグラウンドノイズによってスロットが邪魔にならないようにし、オブジェクト中心表現の学習を容易にするためにスロットが集中する場所を示す。また,OCLに対して弱い半スーパービジョンアプローチを提案する一方,提案フレームワークは推論中にアシスタントアノテーションを使わずに使用できる。実験により,提案手法はオブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現することを示す。コードは \url{https://github.com/object-understanding/slash} で入手できる。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-26T06:34:48Z)
PooDLe: Pooled and dense self-supervised learning from naturalistic videos [32.656425302538835]
本稿では,プール表現における不変性に基づくSSL目的と高密度SSL目標とを組み合わせた新しいアプローチを提案する。 BDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証する。
論文参考訳（メタデータ） (2024-08-20T21:40:48Z)
GLASS: Guided Latent Slot Diffusion for Object-Centric Learning [13.721373817758307]
本稿では,生成画像空間で学習するスロットアテンションモデルであるGLASSについて紹介する。我々の実験は、GLASSが最先端のスロットアテンション手法を、(ゼロショット)オブジェクト発見のようなタスクの幅広いマージンで超越していることを示している。 GLASSは、複雑な現実的なシーンの合成生成にスロットアテンションを初めて適用することを可能にする。
論文参考訳（メタデータ） (2024-07-25T10:38:32Z)
Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文参考訳（メタデータ） (2024-06-11T20:34:10Z)
Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。 RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文参考訳（メタデータ） (2024-05-17T07:48:27Z)
CrIBo: Self-Supervised Learning via Cross-Image Object-Level Bootstrapping [40.94237853380154]
本稿では,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ法を提案する。 CrIBoは、テスト時に最も近い隣人検索を利用して、コンテキスト内学習の特に強力で適切な候補として現れる。
論文参考訳（メタデータ） (2023-10-11T19:57:51Z)
Spotlight Attention: Robust Object-Centric Learning With a Spatial Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文参考訳（メタデータ） (2023-05-31T04:35:50Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文参考訳（メタデータ） (2022-05-30T17:50:59Z)
AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文参考訳（メタデータ） (2022-04-07T17:13:39Z)
Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。 Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文参考訳（メタデータ） (2022-03-16T17:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。