論文の概要: RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces
- arxiv url: http://arxiv.org/abs/2007.01272v2
- Date: Mon, 9 Nov 2020 18:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:27:01.753433
- Title: RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces
- Title(参考訳): 関連:構造化潜在空間を用いた物理的に妥当な多目的シーン合成
- Authors: Sebastien Ehrhardt and Oliver Groth and Aron Monszpart and Martin
Engelcke and Ingmar Posner and Niloy Mitra and Andrea Vedaldi
- Abstract要約: RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
- 参考スコア(独自算出の注目度): 77.07767833443256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RELATE, a model that learns to generate physically plausible
scenes and videos of multiple interacting objects. Similar to other generative
approaches, RELATE is trained end-to-end on raw, unlabeled data. RELATE
combines an object-centric GAN formulation with a model that explicitly
accounts for correlations between individual objects. This allows the model to
generate realistic scenes and videos from a physically-interpretable
parameterization. Furthermore, we show that modeling the object correlation is
necessary to learn to disentangle object positions and identity. We find that
RELATE is also amenable to physically realistic scene editing and that it
significantly outperforms prior art in object-centric scene generation in both
synthetic (CLEVR, ShapeStacks) and real-world data (cars). In addition, in
contrast to state-of-the-art methods in object-centric generative modeling,
RELATE also extends naturally to dynamic scenes and generates videos of high
visual fidelity. Source code, datasets and more results are available at
http://geometry.cs.ucl.ac.uk/projects/2020/relate/.
- Abstract(参考訳): RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
他の生成アプローチと同様に、RELATEは生のラベルなしのデータに基づいてエンドツーエンドで訓練される。
RELATEは、オブジェクト中心のGAN定式化と、個々のオブジェクト間の相関を明示的に説明するモデルを組み合わせる。
これにより、物理的に解釈可能なパラメータ化からリアルなシーンやビデオを生成することができる。
さらに,物体の位置とアイデンティティを乱す学習には,物体相関のモデル化が必要であることを示す。
RELATEは、物理的にリアルなシーン編集にも適しており、合成(CLEVR、ShapeStacks)と実世界のデータ(車)の両方において、オブジェクト中心のシーン生成において、先行技術よりも著しく優れています。
加えて、オブジェクト中心生成モデリングにおける最先端のメソッドとは対照的に、relationは動的シーンにも自然に拡張され、高い視覚忠実度を持つビデオを生成する。
ソースコード、データセット、その他の結果はhttp://geometry.cs.ucl.ac.uk/projects/2020/relate/で入手できる。
関連論文リスト
- CAGE: Controllable Articulation GEneration [14.002289666443529]
分割拡散法を用いて, 部品形状, 接続性, 動きの相互作用を利用する。
本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。
実験の結果,本手法は音声オブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-15T07:04:27Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文 参考訳(メタデータ) (2020-06-11T00:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。