Fugu-MT 論文翻訳(概要): An Identity-Preserved Framework for Human Motion Transfer

論文の概要: An Identity-Preserved Framework for Human Motion Transfer

arxiv url: http://arxiv.org/abs/2204.06862v2
Date: Tue, 4 Apr 2023 07:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 19:13:08.035073
Title: An Identity-Preserved Framework for Human Motion Transfer
Title（参考訳）: 人間の動き伝達のためのアイデンティティ保存フレームワーク
Authors: Jingzhe Ma, Xiaoqing Zhang and Shiqi Yu
Abstract要約: HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。従来の方法は、ソースとターゲットの動作から個別化された動き情報の影響を省略する。本稿では,スケルトンをベースとしたHMTネットワーク(textitIDPres)を提案する。
参考スコア（独自算出の注目度）: 13.465176040679165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human motion transfer (HMT) aims to generate a video clip for the target subject by imitating the source subject's motion. Although previous methods have achieved remarkable results in synthesizing good-quality videos, those methods omit the effects of individualized motion information from the source and target motions, \textit{e.g.}, fine and high-frequency motion details, on the realism of the motion in the generated video. To address this problem, we propose an identity-preserved HMT network (\textit{IDPres}), which follows the pipeline of the skeleton-based method. \textit{IDpres} takes the individualized motion and skeleton information to enhance motion representations and improve the reality of motions in the generated videos. With individualized motion, our method focuses on fine-grained disentanglement and synthesis of motion. In order to improve the representation capability in latent space and facilitate the training of \textit{IDPres}, we design a training scheme, which allows \textit{IDPres} to disentangle different representations simultaneously and control them to synthesize ideal motions accurately. Furthermore, to our best knowledge, there are no available metrics for evaluating the proportion of identity information (both individualized motion and skeleton information) in the generated video. Therefore, we propose a novel quantitative metric called Identity Score (\textit{IDScore}) based on gait recognition. We also collected a dataset with 101 subjects' solo-dance videos from the public domain, named $Dancer101$, to evaluate the method. The comprehensive experiments show the proposed method outperforms state-of-the-art methods in terms of reconstruction accuracy and realistic motion.
Abstract（参考訳）: HMT(Human Motion Transfer)は、被写体の動きを模倣した映像クリップを作成することを目的とする。従来の手法は高品質なビデオの合成において顕著な成果を上げてきたが、これらの手法は、生成した動画における動きのリアリズムに対する、ソースとターゲットの動きから個別化された動き情報である「textit{e.g.}」の効果を省略している。この問題に対処するために,スケルトンに基づく手法のパイプラインに従うアイデンティティ保存型HMTネットワーク(\textit{IDPres})を提案する。 \textit{IDpres} は、個々の動きと骨格情報を取り込み、動きの表現を強化し、生成されたビデオにおける動きの現実を改善する。個別化運動では,運動の微細化と合成に焦点が当てられている。潜在空間における表現能力を改善し, \textit{idpres} の訓練を容易にするために, \textit{idpres} が異なる表現を同時に分離し,それらを制御して理想動作を正確に合成するトレーニングスキームを設計する。さらに、我々の知る限り、生成されたビデオのアイデンティティ情報(個別化動作と骨格情報の両方)の比率を評価するための指標は存在しない。そこで本稿では,歩行認識に基づくIdentity Score(\textit{IDScore})と呼ばれる新しい定量尺度を提案する。また,この手法を評価するために,パブリックドメインから101人の被験者のソロダンスビデオを収集し,$Dancer101$と名づけた。総合的な実験により,提案手法は再現精度と現実的な動きで最先端の手法より優れていた。

関連論文リスト

CanonSwap: High-Fidelity and Consistent Video Face Swapping via Canonical Space Modulation [39.665632874158426]
CanonSwapは、外見情報からモーション情報を分離するビデオフェイススワッピングフレームワークである。本手法は, 視覚的品質, 時間的整合性, アイデンティティ保存の点で, 既存の手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-03T15:03:39Z)
Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。 Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文参考訳（メタデータ） (2025-06-30T11:05:32Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers [30.583932208752877]
電子商取引とデジタルマーケティングでは、高忠実な人間製品デモビデオを生成することが重要である。人間のアイデンティティと製品固有の詳細を保存するための拡散変換器(DiT)ベースのフレームワークを提案する。我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
論文参考訳（メタデータ） (2025-06-12T10:58:23Z)
A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。提案手法は,高品質な視覚的結果と効率的な推論を両立させる。我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文参考訳（メタデータ） (2025-03-13T06:43:21Z)
SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。 SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文参考訳（メタデータ） (2025-02-15T16:08:40Z)
Learning Semantic Facial Descriptors for Accurate Face Animation [43.370084532812044]
ディレンマに対処するために,学習可能な不整合ベクトル空間に意味的顔記述子を導入する。音源と駆動面にエンコーダを用いてベースベクトル係数を求め, 同一性および動作部分空間に有効な顔記述子を導出する。提案手法は,高忠実度同定におけるモデルベース手法の限界問題と,高精度な動き伝達におけるモデルフリー手法が直面する課題に対処する。
論文参考訳（メタデータ） (2025-01-29T15:40:42Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [7.474418338825595]
MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
論文参考訳（メタデータ） (2024-11-27T12:15:52Z)
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。 MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文参考訳（メタデータ） (2024-10-09T10:12:37Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文参考訳（メタデータ） (2024-05-26T00:53:26Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文参考訳（メタデータ） (2023-05-06T09:29:12Z)
Flow Guided Transformable Bottleneck Networks for Motion Retargeting [29.16125343915916]
既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-06-14T21:58:30Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。