Fugu-MT 論文翻訳(概要): One-shot Human Motion Transfer via Occlusion-Robust Flow Prediction and Neural Texturing

論文の概要: One-shot Human Motion Transfer via Occlusion-Robust Flow Prediction and Neural Texturing

arxiv url: http://arxiv.org/abs/2412.06174v1
Date: Mon, 09 Dec 2024 03:14:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.205898
Title: One-shot Human Motion Transfer via Occlusion-Robust Flow Prediction and Neural Texturing
Title（参考訳）: オクルージョン・ロバスト流予測とニューラルテクスチャによるワンショット人の動き伝達
Authors: Yuzhu Ji, Chuanxia Zheng, Tat-Jen Cham,
Abstract要約: マルチスケールな特徴ワーピングとニューラルテクスチャマッピングを組み合わせて、2Dの外観と2.5D形状を復元する統合フレームワークを提案する。このモデルでは,複数モーダルを共同でトレーニングし,融合させることで,幾何的誤差に対処する頑健な神経テクスチャ特性を実現する。
参考スコア（独自算出の注目度）: 21.613055849276385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human motion transfer aims at animating a static source image with a driving video. While recent advances in one-shot human motion transfer have led to significant improvement in results, it remains challenging for methods with 2D body landmarks, skeleton and semantic mask to accurately capture correspondences between source and driving poses due to the large variation in motion and articulation complexity. In addition, the accuracy and precision of DensePose degrade the image quality for neural-rendering-based methods. To address the limitations and by both considering the importance of appearance and geometry for motion transfer, in this work, we proposed a unified framework that combines multi-scale feature warping and neural texture mapping to recover better 2D appearance and 2.5D geometry, partly by exploiting the information from DensePose, yet adapting to its inherent limited accuracy. Our model takes advantage of multiple modalities by jointly training and fusing them, which allows it to robust neural texture features that cope with geometric errors as well as multi-scale dense motion flow that better preserves appearance. Experimental results with full and half-view body video datasets demonstrate that our model can generalize well and achieve competitive results, and that it is particularly effective in handling challenging cases such as those with substantial self-occlusions.
Abstract（参考訳）: 人間の動き伝達は、駆動ビデオで静的なソースイメージをアニメーションすることを目的としている。近年のワンショットヒトの運動伝達の進歩は大きな改善につながっているが、運動と関節の複雑さの大きな変化により、2次元の身体のランドマーク、骨格、セマンティックマスクを用いて、ソースとドライビングの対応を正確に捉える手法はいまだに困難である。さらに、DensePoseの精度と精度は、ニューラルレンダリングベースの手法の画質を劣化させる。本研究は,動作伝達における外観と幾何学の重要性を両立させながら,DensePoseの情報を活用することにより,より優れた2D外観と2.5D形状を復元する,マルチスケール特徴ワーピングとニューラルテクスチャマッピングを組み合わせた統合フレームワークを提案する。このモデルでは,幾何的誤差に対処する頑健な神経テクスチャ特徴と,外観をよりよく保存するマルチスケールの濃密な動きの流れを両立させることができる。フル・ハーフビューのボディー・ビデオ・データセットを用いた実験結果から,本モデルが十分に一般化され,競争力のある結果が得られること,また,かなりの自己閉塞性を有するような課題に対処する上で,特に有効であることが示された。

関連論文リスト

Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-18T15:56:46Z)
Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。情報ソースを補完するために慣性センサが導入された。物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文参考訳（メタデータ） (2024-04-27T09:02:42Z)
MultiPhys: Multi-Person Physics-aware 3D Motion Estimation [28.91813849219037]
モノクロビデオから多人数動作を復元する手法であるMultiPhysを紹介する。私たちの焦点は、様々なエンゲージメントの度合いで、ペアの個人間のコヒーレントな空間配置をキャプチャすることにあります。本研究では,運動量に基づく運動を物理シミュレーターに自動回帰的に供給するパイプラインを考案する。
論文参考訳（メタデータ） (2024-04-18T08:29:29Z)
Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ) 拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。 CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文参考訳（メタデータ） (2023-12-18T07:44:40Z)
Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文参考訳（メタデータ） (2023-09-28T17:59:51Z)
MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文参考訳（メタデータ） (2023-04-17T13:49:04Z)
MotionBERT: A Unified Perspective on Learning Human Motion Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文参考訳（メタデータ） (2022-10-12T19:46:25Z)
Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文参考訳（メタデータ） (2022-10-07T15:31:37Z)
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-15T11:39:49Z)
Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文参考訳（メタデータ） (2021-05-03T17:57:07Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)
Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-13T15:24:28Z)
Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2020-04-07T05:59:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。