Fugu-MT 論文翻訳(概要): Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling

論文の概要: Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling

arxiv url: http://arxiv.org/abs/2407.11962v1
Date: Tue, 16 Jul 2024 17:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 13:43:56.098979
Title: Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling
Title（参考訳）: 単分子動的人体モデリングのための運動指向型合成ニューラルラディアンス場
Authors: Jaehyeok Kim, Dongyoon Wee, Dan Xu,
Abstract要約: 本稿では,MoCo-NeRF(MoCo-NeRF)について述べる。 MoCo-NeRFはモノクロビデオのフリービューポイントレンダリングを実現するために設計されたフレームワークである。
参考スコア（独自算出の注目度）: 10.914612535745789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Motion-oriented Compositional Neural Radiance Fields (MoCo-NeRF), a framework designed to perform free-viewpoint rendering of monocular human videos via novel non-rigid motion modeling approach. In the context of dynamic clothed humans, complex cloth dynamics generate non-rigid motions that are intrinsically distinct from skeletal articulations and critically important for the rendering quality. The conventional approach models non-rigid motions as spatial (3D) deviations in addition to skeletal transformations. However, it is either time-consuming or challenging to achieve optimal quality due to its high learning complexity without a direct supervision. To target this problem, we propose a novel approach of modeling non-rigid motions as radiance residual fields to benefit from more direct color supervision in the rendering and utilize the rigid radiance fields as a prior to reduce the complexity of the learning process. Our approach utilizes a single multiresolution hash encoding (MHE) to concurrently learn the canonical T-pose representation from rigid skeletal motions and the radiance residual field for non-rigid motions. Additionally, to further improve both training efficiency and usability, we extend MoCo-NeRF to support simultaneous training of multiple subjects within a single framework, thanks to our effective design for modeling non-rigid motions. This scalability is achieved through the integration of a global MHE and learnable identity codes in addition to multiple local MHEs. We present extensive results on ZJU-MoCap and MonoCap, clearly demonstrating state-of-the-art performance in both single- and multi-subject settings. The code and model will be made publicly available at the project page: https://stevejaehyeok.github.io/publications/moco-nerf.
Abstract（参考訳）: 本稿では,新しい非剛性モーションモデリング手法を用いて,モノクロ映像の自由視点レンダリングを実現するフレームワークであるMoCo-NeRFについて紹介する。動的布地人の文脈では、複雑な布地力学は、骨格の関節と本質的に異なる非剛体運動を生成し、レンダリング品質に重要な意味を持つ。従来のアプローチでは、非剛体運動を骨格変換に加えて空間的(3次元)偏差としてモデル化している。しかし、直接の監督なしに、学習の複雑さのために最適な品質を達成するのに時間がかかるか難しいかのどちらかである。そこで本研究では,非剛性運動をレイディアンス残差場としてモデル化し,レンダリングにおけるより直接的な色監督の利点を生かし,厳密なレイディアンス場を事前利用することにより,学習過程の複雑さを低減させる手法を提案する。本手法では, 単一多重分解能ハッシュ符号化(MHE)を用いて, 剛性骨格運動と非剛性運動に対する放射残留場から標準T位置表現を同時に学習する。さらに、トレーニング効率とユーザビリティの両方を改善するために、我々はMoCo-NeRFを拡張して、1つのフレームワーク内で複数の被験者の同時トレーニングをサポートする。このスケーラビリティは、グローバルなMHEと学習可能なアイデンティティコードと、複数のローカルなMHEを統合することで実現されている。 ZJU-MoCap と MonoCap について,単一オブジェクトと多オブジェクトの両方で最先端性能を実証した。コードとモデルはプロジェクトのページで公開されている。

関連論文リスト

TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation [61.94780858309546]
Tri-Domain Causal Text-to-Motion Generation (TriC-Motion)は、空間ドメインモデリングと因果介入を統合した新しい拡散ベースのフレームワークである。 TriC-Motionは、HumanML3Dデータセット上で0.612の優れたR@1を達成することによって、最先端の手法よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-09T10:12:13Z)
EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文参考訳（メタデータ） (2025-12-21T17:08:14Z)
UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文参考訳（メタデータ） (2025-12-03T16:03:18Z)
ArmGS: Composite Gaussian Appearance Refinement for Modeling Dynamic Urban Environments [22.371417505012566]
この研究は、自律運転シミュレーションのための動的都市環境のモデリングに焦点を当てている。我々は,多粒性外観改善を用いた複合駆動ガウススプラッティングを利用するArmGSという新しい手法を提案する。これは、フレームとカメラの視点のグローバルなシーンの外観の変化をモデル化するだけでなく、背景と物体の局所的なきめ細かい光リアルな変化もモデル化する。
論文参考訳（メタデータ） (2025-07-05T03:54:40Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文参考訳（メタデータ） (2024-06-06T03:37:39Z)
Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文参考訳（メタデータ） (2024-05-10T19:06:41Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
Instant-NVR: Instant Neural Volumetric Rendering for Human-object Interactions from Monocular RGBD Stream [14.844982083586306]
Instant-NVRは,1台のRGBDカメラを用いて,物体追跡とレンダリングを瞬時に行うニューラルネットワークである。トラッキングフロントエンドでは、十分な動作先を提供するために、頑健な人間オブジェクトキャプチャー方式を採用する。また,移動優先探索による動的・静電放射場をオンザフライで再構築する手法も提案する。
論文参考訳（メタデータ） (2023-04-06T16:09:51Z)
MonoHuman: Animatable Human Neural Field from Monocular Video [30.113937856494726]
そこで我々は,任意のポーズの下で,ビュー一貫性と高忠実度アバターを強固に描画する新しいフレームワークMonoHumanを提案する。我々のキーとなる洞察は、変形場を双方向の制約でモデル化し、オフザペグ情報を明示的に活用して、特徴を一貫性のある結果の推論を行うことである。
論文参考訳（メタデータ） (2023-04-04T17:55:03Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文参考訳（メタデータ） (2022-06-16T09:06:25Z)
Fast Dynamic Radiance Fields with Time-Aware Neural Voxels [106.69049089979433]
タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。我々のフレームワークは、高いレンダリング品質を維持しながら、動的ラディアンスフィールドの最適化を加速する。 TiNeuVoxは8分と8MBのストレージでトレーニングを完了しています。
論文参考訳（メタデータ） (2022-05-30T17:47:31Z)
MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文参考訳（メタデータ） (2021-06-08T16:03:50Z)
Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文参考訳（メタデータ） (2020-08-25T02:31:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。