論文の概要: ROAM: Robust and Object-aware Motion Generation using Neural Pose
Descriptors
- arxiv url: http://arxiv.org/abs/2308.12969v1
- Date: Thu, 24 Aug 2023 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:46:46.676210
- Title: ROAM: Robust and Object-aware Motion Generation using Neural Pose
Descriptors
- Title(参考訳): ROAM:ニューラルポーズ記述子を用いたロバスト・オブジェクト認識動作生成
- Authors: Wanyue Zhang and Rishabh Dabral and Thomas Leimk\"uhler and Vladislav
Golyanik and Marc Habermann and Christian Theobalt
- Abstract要約: 本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 73.26004792375556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing automatic approaches for 3D virtual character motion synthesis
supporting scene interactions do not generalise well to new objects outside
training distributions, even when trained on extensive motion capture datasets
with diverse objects and annotated interactions. This paper addresses this
limitation and shows that robustness and generalisation to novel scene objects
in 3D object-aware character synthesis can be achieved by training a motion
model with as few as one reference object. We leverage an implicit feature
representation trained on object-only datasets, which encodes an
SE(3)-equivariant descriptor field around the object. Given an unseen object
and a reference pose-object pair, we optimise for the object-aware pose that is
closest in the feature space to the reference pose. Finally, we use l-NSM,
i.e., our motion generation model that is trained to seamlessly transition from
locomotion to object interaction with the proposed bidirectional pose blending
scheme. Through comprehensive numerical comparisons to state-of-the-art methods
and in a user study, we demonstrate substantial improvements in 3D virtual
character motion and interaction quality and robustness to scenarios with
unseen objects. Our project page is available at
https://vcai.mpi-inf.mpg.de/projects/ROAM/.
- Abstract(参考訳): シーンインタラクションをサポートする3次元仮想キャラクターモーション合成のための既存の自動アプローチは、多様なオブジェクトと注釈付きインタラクションを持つ広範囲なモーションキャプチャデータセットでトレーニングしても、トレーニング分布外の新しいオブジェクトにうまく一般化しない。
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,単一の参照オブジェクトの少ないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクトのみのデータセットでトレーニングされた暗黙的な特徴表現を利用し、オブジェクトの周りにse(3)-同変ディスクリプタフィールドを符号化する。
未確認オブジェクトと参照ポーズオブジェクトペアが与えられた場合、参照ポーズに最も近い特徴空間のオブジェクト認識ポーズを最適化する。
最後に、l-nsm、すなわち、提案する双方向ポーズブレンディングスキームとロコモーションからオブジェクトインタラクションへシームレスに遷移するように訓練された運動生成モデルを用いる。
最先端手法との包括的数値比較とユーザスタディにより,未知の物体を用いたシナリオに対する3次元仮想キャラクタの動作とインタラクションの質,ロバスト性が大幅に向上することを示す。
プロジェクトのページはhttps://vcai.mpi-inf.mpg.de/projects/roam/で閲覧できます。
関連論文リスト
- LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation [32.27869897947267]
動的3Dオブジェクトを表現するための新しいアプローチであるLEIAを紹介する。
我々の手法は、オブジェクトを異なる時間ステップまたは「状態」で観察し、現在の状態にハイパーネットワークを条件付けることである。
これらの状態の補間により、以前は見えなかった3次元空間に新しい調音構成を生成することができる。
論文 参考訳(メタデータ) (2024-09-10T17:59:53Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Unsupervised Kinematic Motion Detection for Part-segmented 3D Shape
Collections [14.899075941080541]
本研究では,部分分割型3次元形状収集における調音運動の発見のための教師なしアプローチを提案する。
私たちのアプローチは、カテゴリクロージャと呼ばれる概念に基づいています。オブジェクトの部分の有効な記述は、オブジェクトを同じ意味圏に保つべきです。
我々は、PartNet-Mobilityデータセットから部品の動きを再発見するためにこれを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2022-06-17T00:50:36Z) - Neural Descriptor Fields: SE(3)-Equivariant Object Representations for
Manipulation [75.83319382105894]
対象と対象の相対的なポーズを符号化するオブジェクト表現であるニューラル・ディスクリプタ・フィールド(NDF)を提案する。
NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己教師型で訓練される。
我々のパフォーマンスは、オブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2021-12-09T18:57:15Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。