論文の概要: Time-Conditioned Generative Modeling of Object-Centric Representations
for Video Decomposition and Prediction
- arxiv url: http://arxiv.org/abs/2301.08951v1
- Date: Sat, 21 Jan 2023 13:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:41:42.494137
- Title: Time-Conditioned Generative Modeling of Object-Centric Representations
for Video Decomposition and Prediction
- Title(参考訳): 映像分解と予測のための物体中心表現の時間条件生成モデル
- Authors: Chengmin Gao and Bin Li
- Abstract要約: ビデオの時間条件生成モデルを提案する。
我々は,1)映像の分解,2)オブジェクトの完全な形状の再構築,3)視点アノテーションを使わずに新たな視点予測を行うことができることを示す。
- 参考スコア(独自算出の注目度): 6.895321502252051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When perceiving the world from multiple viewpoints, humans have the ability
to reason about the complete objects in a compositional manner even when the
object is completely occluded from partial viewpoints. Meanwhile, humans can
imagine the novel views after observing multiple viewpoints. The remarkable
recent advance in multi-view object-centric learning leaves some problems: 1)
the partially or completely occluded shape of objects can not be well
reconstructed. 2) the novel viewpoint prediction depends on expensive viewpoint
annotations rather than implicit view rules. This makes the agent fail to
perform like humans. In this paper, we introduce a time-conditioned generative
model for videos. To reconstruct the complete shape of the object accurately,
we enhance the disentanglement between different latent representations: view
latent representations are jointly inferred based on the Transformer and then
cooperate with the sequential extension of Slot Attention to learn
object-centric representations. The model also achieves the new ability:
Gaussian processes are employed as priors of view latent variables for
generation and novel-view prediction without viewpoint annotations. Experiments
on multiple specifically designed synthetic datasets have shown that the
proposed model can 1) make the video decomposition, 2) reconstruct the complete
shapes of objects, and 3) make the novel viewpoint prediction without viewpoint
annotations.
- Abstract(参考訳): 複数の視点から世界を理解するとき、人間は、対象が部分的な視点から完全に隠されている場合でも、完全な対象を合成的に考えることができる。
一方、人間は複数の視点を観察して新しい視点を想像することができる。
マルチビューオブジェクト指向学習の最近の注目すべき進歩は、いくつかの問題を残している。
1) 物体の部分的あるいは完全に閉塞された形状を適切に再構築することはできない。
2)新しい視点予測は暗黙の視点規則よりも高価な視点アノテーションに依存している。
これにより、エージェントは人間のように動作しない。
本稿では,ビデオの時間条件生成モデルを提案する。
オブジェクトの完全な形状を正確に再構築するために、異なる潜在表現間の不整合性を高める:ビュー潜在表現は変換器に基づいて共同で推論され、Slot Attentionの逐次拡張と協調してオブジェクト中心表現を学習する。
ガウス過程は、生成のための潜在変数の先行と、視点アノテーションなしでの新規ビュー予測として使用される。
複数の特別に設計された合成データセットの実験は、提案モデルが可能であることを示した。
1)動画の分解を行う。
2)対象物の完全な形状を再構築し、
3)新しい視点予測を視点の注釈なしで行う。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints [45.88397367354284]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2024-01-03T15:09:25Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Partial-View Object View Synthesis via Filtered Inversion [77.282967562509]
FINVは3D生成モデルのトレーニングによって形状を学習する。
FINVは実世界のオブジェクトの新たなビューをうまく合成する。
論文 参考訳(メタデータ) (2023-04-03T00:59:31Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。