論文の概要: Object-centric Learning with Cyclic Walks between Parts and Whole
- arxiv url: http://arxiv.org/abs/2302.08023v1
- Date: Thu, 16 Feb 2023 01:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:20:17.153179
- Title: Object-centric Learning with Cyclic Walks between Parts and Whole
- Title(参考訳): 部分と全体間の巡回歩行によるオブジェクト中心学習
- Authors: Ziyu Wang, Mike Zheng Shou, Mengmi Zhang
- Abstract要約: 複雑な自然環境からオブジェクト中心の表現を学習することで、人間と機械の両方が低レベルの知覚的特徴から推論できる。
本稿では,CNNやトランスフォーマー,オブジェクトエンティティから抽出した知覚的特徴間の循環ウォークを提案する。
循環ウォークで訓練されたネットワークが、教師なしの3つの学習タスクにおいて、7つの画像データセットのオブジェクト中心表現を抽出できることを実証的に実証した。
- 参考スコア(独自算出の注目度): 9.416533272529243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning object-centric representations from complex natural environments
enables both humans and machines with reasoning abilities from low-level
perceptual features. To capture compositional entities of the scene, we
proposed cyclic walks between perceptual features extracted from CNN or
transformers and object entities. First, a slot-attention module interfaces
with these perceptual features and produces a finite set of slot
representations. These slots can bind to any object entities in the scene via
inter-slot competitions for attention. Next, we establish entity-feature
correspondence with cyclic walks along high transition probability based on
pairwise similarity between perceptual features (aka "parts") and slot-binded
object representations (aka "whole"). The whole is greater than its parts and
the parts constitute the whole. The part-whole interactions form cycle
consistencies, as supervisory signals, to train the slot-attention module. We
empirically demonstrate that the networks trained with our cyclic walks can
extract object-centric representations on seven image datasets in three
unsupervised learning tasks. In contrast to object-centric models attached with
a decoder for image or feature reconstructions, our cyclic walks provide strong
supervision signals, avoiding computation overheads and enhancing memory
efficiency.
- Abstract(参考訳): 複雑な自然環境からオブジェクト中心の表現を学習することで、人間と機械の両方が低レベルの知覚的特徴から推論できる。
シーンの構成エンティティをキャプチャするために,cnnやトランスフォーマーから抽出した知覚特徴と対象エンティティとの循環ウォークを提案した。
まず、スロットアテンションモジュールがこれらの知覚的特徴とインターフェースし、スロット表現の有限セットを生成する。
これらのスロットは、注目のためにスロット間競争を通じて、シーン内の任意のオブジェクトエンティティにバインドすることができる。
次に、知覚的特徴(「部分」)とスロット結合オブジェクト表現(「全体」)のペアの類似性に基づいて、巡回歩行と高遷移確率の実体特徴対応を確立する。
全体は部分よりも大きく、部分全体が全体を構成する。
部品間相互作用のサイクルは、スロットアテンションモジュールをトレーニングするための監督信号として構成される。
サイクリックウォークで訓練されたネットワークは,教師なしの3つの学習タスクにおいて,7つの画像データセットからオブジェクト中心表現を抽出することができる。
画像や特徴の再構成のためのデコーダを付加したオブジェクト中心モデルとは対照的に、循環ウォークは強力な監視信号を提供し、計算オーバーヘッドを回避し、メモリ効率を向上する。
関連論文リスト
- Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。