論文の概要: RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream
- arxiv url: http://arxiv.org/abs/2104.14837v1
- Date: Fri, 30 Apr 2021 08:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:39:07.604533
- Title: RobustFusion: Robust Volumetric Performance Reconstruction under
Human-object Interactions from Monocular RGBD Stream
- Title(参考訳): ロバストフュージョン:単分子RGBDストリームからの人間と物体の相互作用によるロバストボリューム性能復元
- Authors: Zhuo Su, Lan Xu, Dawei Zhong, Zhong Li, Fan Deng, Shuxue Quan and Lu
Fang
- Abstract要約: 現実のシナリオでは、さまざまなオブジェクトと複雑な相互作用を持つ人間のパフォーマンスの高品質の4D再構築が不可欠です。
近年の進歩は、信頼性の高い性能回復には至っていない。
人間と物体のインタラクションシナリオのための堅牢なボリュームパフォーマンス再構築システムであるRobustFusionを提案する。
- 参考スコア(独自算出の注目度): 27.600873320989276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality 4D reconstruction of human performance with complex interactions
to various objects is essential in real-world scenarios, which enables numerous
immersive VR/AR applications. However, recent advances still fail to provide
reliable performance reconstruction, suffering from challenging interaction
patterns and severe occlusions, especially for the monocular setting. To fill
this gap, in this paper, we propose RobustFusion, a robust volumetric
performance reconstruction system for human-object interaction scenarios using
only a single RGBD sensor, which combines various data-driven visual and
interaction cues to handle the complex interaction patterns and severe
occlusions. We propose a semantic-aware scene decoupling scheme to model the
occlusions explicitly, with a segmentation refinement and robust object
tracking to prevent disentanglement uncertainty and maintain temporal
consistency. We further introduce a robust performance capture scheme with the
aid of various data-driven cues, which not only enables re-initialization
ability, but also models the complex human-object interaction patterns in a
data-driven manner. To this end, we introduce a spatial relation prior to
prevent implausible intersections, as well as data-driven interaction cues to
maintain natural motions, especially for those regions under severe
human-object occlusions. We also adopt an adaptive fusion scheme for temporally
coherent human-object reconstruction with occlusion analysis and human parsing
cue. Extensive experiments demonstrate the effectiveness of our approach to
achieve high-quality 4D human performance reconstruction under complex
human-object interactions whilst still maintaining the lightweight monocular
setting.
- Abstract(参考訳): 多数の没入型vr/arアプリケーションを可能にする現実のシナリオでは、さまざまなオブジェクトとの複雑なインタラクションによる人間のパフォーマンスの高品質な4d再構築が不可欠である。
しかし,近年の進歩は,特に単眼環境において,困難な相互作用パターンや重度の咬合に苦しむなど,信頼性の高い性能回復には至っていない。
このギャップを埋めるために,1つのRGBDセンサのみを用いて,複雑な相互作用パターンと重度のオクルージョンを扱うために,様々なデータ駆動型視覚・インタラクションキューを組み合わせた,人間と物体の相互作用シナリオのためのロバストフュージョンを提案する。
セグメンテーションの洗練とロバストなオブジェクト追跡により,不確かさを回避し,時間的一貫性を維持するために,オクルージョンを明示的にモデル化する意味認識シーン分離スキームを提案する。
さらに,様々なデータ駆動手法を用いてロバストなパフォーマンスキャプチャ方式を導入することで,再初期化機能を実現するだけでなく,複雑なヒューマン・オブジェクト間インタラクションパターンをデータ駆動方式でモデル化する。
この目的を達成するために,不測の交点を防止すべく空間的関係を導入するとともに,自然運動の維持のためのデータ駆動インタラクションの手がかりを提示する。
また, 時間的コヒーレントな人間オブジェクト再構成のための適応的融合方式を, 閉塞解析と人間のパーシングキューに適用した。
大規模実験により, 軽量な単眼環境を維持しつつ, 複雑な物体間相互作用下での高品質な4次元ヒューマンパフォーマンス再構築を実現するための提案手法の有効性が実証された。
関連論文リスト
- Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Ins-HOI: Instance Aware Human-Object Interactions Recovery [44.02128629239429]
本稿では,エンド・ツー・エンドのインスタンス・アウェアなヒューマン・オブジェクト・インタラクション・リカバリ(Ins-HOI)フレームワークを提案する。
Ins-HOIはインスタンスレベルの再構築をサポートし、合理的で現実的な接触面を提供する。
我々は、現実世界の人間-椅子と手-物体の相互作用を伴う5.2kの高品質スキャンを含む、大規模で高忠実な3Dスキャンデータセットを収集します。
論文 参考訳(メタデータ) (2023-12-15T09:30:47Z) - Exploiting Spatial-Temporal Context for Interacting Hand Reconstruction
on Monocular RGB Video [104.69686024776396]
モノラルなRGBデータからインタラクションハンドを再構築することは、多くの干渉要因が伴うため、難しい作業である。
これまでの作業は、物理的に妥当な関係をモデル化することなく、単一のRGBイメージからの情報のみを活用する。
本研究は, 空間的時間的情報を明示的に活用し, より優れた対話的手指再建を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-08T06:16:37Z) - Instant-NVR: Instant Neural Volumetric Rendering for Human-object
Interactions from Monocular RGBD Stream [14.844982083586306]
Instant-NVRは,1台のRGBDカメラを用いて,物体追跡とレンダリングを瞬時に行うニューラルネットワークである。
トラッキングフロントエンドでは、十分な動作先を提供するために、頑健な人間オブジェクトキャプチャー方式を採用する。
また,移動優先探索による動的・静電放射場をオンザフライで再構築する手法も提案する。
論文 参考訳(メタデータ) (2023-04-06T16:09:51Z) - Rearrange Indoor Scenes for Human-Robot Co-Activity [82.22847163761969]
本稿では,室内家具を人間ロボットのコアクティビティを向上するために,室内家具の配置を最適化した枠組みを提案する。
提案アルゴリズムは,SUNCGとConceptNetから抽出した空間的・意味的共起情報を統合することにより,家具間の機能的関係を保っている。
実験の結果、アレンジされたシーンは平均して14%のスペースを提供し、30%以上のオブジェクトをやりとりできることがわかった。
論文 参考訳(メタデータ) (2023-03-10T03:03:32Z) - NeuralFusion: Neural Volumetric Rendering under Human-object
Interactions [46.70371238621842]
本稿では,スパース・コンシューマRGBDセンサを用いたボリューム・オブジェクトのキャプチャとレンダリングのためのニューラル・アプローチを提案する。
幾何学的モデリングでは,非剛性鍵体積融合を用いたニューラル暗黙的推論方式を提案する。
また,空間的領域と時間的領域の両方において,ボリュームと画像に基づくレンダリングを組み合わせた階層的ヒューマンオブジェクトテクスチャレンダリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T17:10:07Z) - Neural Free-Viewpoint Performance Rendering under Complex Human-object
Interactions [35.41116017268475]
没入型VR/AR体験と人間の活動理解には,人間と物体の相互作用の4次元再構築が不可欠である。
近年の進歩は、細かなRGB入力から細かな幾何学やテクスチャ結果の回復には至っていない。
本研究では,人間と物体の高画質なテクスチャとフォトリアリスティックなテクスチャを両立させるニューラル・ヒューマン・パフォーマンス・キャプチャー・レンダリングシステムを提案する。
論文 参考訳(メタデータ) (2021-08-01T04:53:54Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。