論文の概要: Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization
- arxiv url: http://arxiv.org/abs/2111.05393v1
- Date: Tue, 9 Nov 2021 20:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:27:18.179518
- Title: Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization
- Title(参考訳): 生成的空間時間因子化を用いたオブジェクト中心表現学習
- Authors: Li Nanbo, Muhammad Ahmed Raza, Hu Wenbin, Zhaole Sun, Robert B. Fisher
- Abstract要約: DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。
そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。
また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
- 参考スコア(独自算出の注目度): 5.403549896734018
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning object-centric scene representations is essential for attaining
structural understanding and abstraction of complex scenes. Yet, as current
approaches for unsupervised object-centric representation learning are built
upon either a stationary observer assumption or a static scene assumption, they
often: i) suffer single-view spatial ambiguities, or ii) infer incorrectly or
inaccurately object representations from dynamic scenes. To address this, we
propose Dynamics-aware Multi-Object Network (DyMON), a method that broadens the
scope of multi-view object-centric representation learning to dynamic scenes.
We train DyMON on multi-view-dynamic-scene data and show that DyMON learns --
without supervision -- to factorize the entangled effects of observer motions
and scene object dynamics from a sequence of observations, and constructs scene
object spatial representations suitable for rendering at arbitrary times
(querying across time) and from arbitrary viewpoints (querying across space).
We also show that the factorized scene representations (w.r.t. objects) support
querying about a single object by space and time independently.
- Abstract(参考訳): 複雑なシーンの構造的理解と抽象化を実現するためには,オブジェクト中心のシーン表現の学習が不可欠である。
しかし、教師なしオブジェクト中心表現学習の現在のアプローチは、定常オブザーバ仮定か静的シーン仮定のいずれかに基づいて構築されているため、しばしばそうである。
一 単視点空間の曖昧さに苦しむこと、又は
二 動シーンから不正又は不正確な対象表現を推定すること。
そこで本研究では,多視点オブジェクト中心表現学習のスコープをダイナミックシーンに拡大するdymon(dynamics-aware multi-object network)を提案する。
マルチビュー・ダイナミック・シーンデータを用いてDyMONを訓練し、観察者の動きとシーンオブジェクトのダイナミックスの絡み合った影響を、観察列から分解し、任意の時間(時間的クエリ)および任意の視点(空間的クエリ)でレンダリングに適したシーンオブジェクト空間表現を構築する。
また,因子化されたシーン表現(w.r.t. object)が,空間と時間によって独立したクエリをサポートすることを示した。
関連論文リスト
- Learning Global Object-Centric Representations via Disentangled Slot Attention [38.78205074748021]
本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。
実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
論文 参考訳(メタデータ) (2024-10-24T14:57:00Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Compositional Scene Modeling with Global Object-Centric Representations [44.43366905943199]
人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T14:36:36Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。