論文の概要: NeuralDome: A Neural Modeling Pipeline on Multi-View Human-Object
Interactions
- arxiv url: http://arxiv.org/abs/2212.07626v1
- Date: Thu, 15 Dec 2022 05:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:01:11.293269
- Title: NeuralDome: A Neural Modeling Pipeline on Multi-View Human-Object
Interactions
- Title(参考訳): NeuralDome: 多視点ヒューマンオブジェクトインタラクションのためのニューラルモデリングパイプライン
- Authors: Juze Zhang, Haimin Luo, Hongdi Yang, Xinru Xu, Qianyang Wu, Ye Shi,
Jingyi Yu, Lan Xu, Jingya Wang
- Abstract要約: 我々は,23件のオブジェクトと対話する10件の被験者に対して,$sim$75M($sim$75M)のフレームからなるHODomeという複雑なヒューマンオブジェクトインタラクションデータセットを取得するために,密集した多視点ドームを構築した。
HODomeデータセットを処理するために,多視点ビデオ入力に適したニューラル処理パイプラインであるNeuralDomeを開発した。
- 参考スコア(独自算出の注目度): 37.38289781265478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans constantly interact with objects in daily life tasks. Capturing such
processes and subsequently conducting visual inferences from a fixed viewpoint
suffers from occlusions, shape and texture ambiguities, motions, etc. To
mitigate the problem, it is essential to build a training dataset that captures
free-viewpoint interactions. We construct a dense multi-view dome to acquire a
complex human object interaction dataset, named HODome, that consists of
$\sim$75M frames on 10 subjects interacting with 23 objects. To process the
HODome dataset, we develop NeuralDome, a layer-wise neural processing pipeline
tailored for multi-view video inputs to conduct accurate tracking, geometry
reconstruction and free-view rendering, for both human subjects and objects.
Extensive experiments on the HODome dataset demonstrate the effectiveness of
NeuralDome on a variety of inference, modeling, and rendering tasks. Both the
dataset and the NeuralDome tools will be disseminated to the community for
further development.
- Abstract(参考訳): 人間は日常のタスクで常にオブジェクトと対話します。
このようなプロセスをキャプチャし、固定された視点から視覚的推論を行うには、オクルージョン、形状、テクスチャのあいまいさ、動きなどに悩まされる。
この問題を軽減するためには,自由視点インタラクションをキャプチャするトレーニングデータセットを構築することが不可欠である。
我々は,23個のオブジェクトと対話する10人の被験者に対して,$\sim$75Mフレームからなる複雑なヒューマンオブジェクトインタラクションデータセットHODomeを取得するために,密集した多視点ドームを構築した。
我々は,hodomeデータセットを処理するために,マルチビュー映像入力用に調整された階層型ニューラルネットワークパイプラインであるneuraldomeを開発した。
HODomeデータセットに関する大規模な実験は、さまざまな推論、モデリング、レンダリングタスクにおけるNeuralDomeの有効性を示している。
データセットとNeuralDomeツールの両方が、さらなる開発のためにコミュニティに配布される。
関連論文リスト
- HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文 参考訳(メタデータ) (2023-12-12T08:32:55Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - NeuralFusion: Neural Volumetric Rendering under Human-object
Interactions [46.70371238621842]
本稿では,スパース・コンシューマRGBDセンサを用いたボリューム・オブジェクトのキャプチャとレンダリングのためのニューラル・アプローチを提案する。
幾何学的モデリングでは,非剛性鍵体積融合を用いたニューラル暗黙的推論方式を提案する。
また,空間的領域と時間的領域の両方において,ボリュームと画像に基づくレンダリングを組み合わせた階層的ヒューマンオブジェクトテクスチャレンダリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T17:10:07Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。