論文の概要: SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition
- arxiv url: http://arxiv.org/abs/2106.03849v1
- Date: Mon, 7 Jun 2021 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:27:28.736222
- Title: SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition
- Title(参考訳): SIMONe: 教師なしビデオ分解によるビュー不変、一時抽象オブジェクト表現
- Authors: Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia
Creswell, Matthew Botvinick, Alexander Lerchner, Christopher P. Burgess
- Abstract要約: この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
- 参考スコア(独自算出の注目度): 69.90530987240899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To help agents reason about scenes in terms of their building blocks, we wish
to extract the compositional structure of any given scene (in particular, the
configuration and characteristics of objects comprising the scene). This
problem is especially difficult when scene structure needs to be inferred while
also estimating the agent's location/viewpoint, as the two variables jointly
give rise to the agent's observations. We present an unsupervised variational
approach to this problem. Leveraging the shared structure that exists across
different scenes, our model learns to infer two sets of latent representations
from RGB video input alone: a set of "object" latents, corresponding to the
time-invariant, object-level contents of the scene, as well as a set of "frame"
latents, corresponding to global time-varying elements such as viewpoint. This
factorization of latents allows our model, SIMONe, to represent object
attributes in an allocentric manner which does not depend on viewpoint.
Moreover, it allows us to disentangle object dynamics and summarize their
trajectories as time-abstracted, view-invariant, per-object properties. We
demonstrate these capabilities, as well as the model's performance in terms of
view synthesis and instance segmentation, across three procedurally generated
video datasets.
- Abstract(参考訳): エージェントは,各シーンの構成構造(特にシーンを構成するオブジェクトの構成と特徴)を抽出したい。
この問題は、エージェントの位置・視点を推定しながらシーン構造を推定する必要がある場合に特に困難である。
我々はこの問題に対して教師なしの変分アプローチを提案する。
異なるシーンにまたがる共有構造を利用することで、rgbビデオ入力のみから2組の潜在表現を推測することを学ぶ:シーンの時間不変なオブジェクトレベルコンテンツに対応する「オブジェクト」潜在表現の集合と、視点のようなグローバルな時間変動要素に対応する「フレーム」潜在表現の集合である。
この潜在因子の分解により、我々のモデルSIMONeは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現できる。
さらに、オブジェクトのダイナミクスを分解し、それらのトラジェクトリを時間制限、ビュー不変、オブジェクトごとの特性としてまとめることができます。
これらの機能と、ビュー合成とインスタンスセグメンテーションの観点からモデルのパフォーマンスを、3つのプロシージャで生成されたビデオデータセットで実証する。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Object-Centric Representation Learning with Generative Spatial-Temporal
Factorization [5.403549896734018]
DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。
そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。
また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
論文 参考訳(メタデータ) (2021-11-09T20:04:16Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Unsupervised Object-Based Transition Models for 3D Partially Observable
Environments [13.598250346370467]
このモデルは、ピクセルではなくオブジェクト構造表現のレベルでの損失を使用して、監視なしでエンドツーエンドでトレーニングされる。
時間とともにオブジェクトレベルの損失と正しいオブジェクトアライメントの組み合わせは、モデルが最先端のベースラインを上回ることを可能にします。
論文 参考訳(メタデータ) (2021-03-08T12:10:02Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。