Fugu-MT 論文翻訳(概要): A Self-supervised Motion Representation for Portrait Video Generation

論文の概要: A Self-supervised Motion Representation for Portrait Video Generation

arxiv url: http://arxiv.org/abs/2503.10096v2
Date: Fri, 13 Jun 2025 05:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 13:34:01.457464
Title: A Self-supervised Motion Representation for Portrait Video Generation
Title（参考訳）: 画像生成のための自己教師型モーション表現
Authors: Qiyuan Zhang, Chenyu Wu, Wenzhang Sun, Huaize Liu, Donglin Di, Wei Chen, Changqing Zou,
Abstract要約: 本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。提案手法は,高品質な視覚的結果と効率的な推論を両立させる。我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
参考スコア（独自算出の注目度）: 19.56640370303683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in portrait video generation have been noteworthy. However, existing methods rely heavily on human priors and pre-trained generative models, Motion representations based on human priors may introduce unrealistic motion, while methods relying on pre-trained generative models often suffer from inefficient inference. To address these challenges, we propose Semantic Latent Motion (SeMo), a compact and expressive motion representation. Leveraging this representation, our approach achieve both high-quality visual results and efficient inference. SeMo follows an effective three-step framework: Abstraction, Reasoning, and Generation. First, in the Abstraction step, we use a carefully designed Masked Motion Encoder, which leverages a self-supervised learning paradigm to compress the subject's motion state into a compact and abstract latent motion (1D token). Second, in the Reasoning step, we efficiently generate motion sequences based on the driving audio signal. Finally, in the Generation step, the motion dynamics serve as conditional information to guide the motion decoder in synthesizing realistic transitions from reference frame to target video. Thanks to the compact and expressive nature of Semantic Latent Motion, our method achieves efficient motion representation and high-quality video generation. User studies demonstrate that our approach surpasses state-of-the-art models with an 81% win rate in realism. Extensive experiments further highlight its strong compression capability, reconstruction quality, and generative potential.
Abstract（参考訳）: 近年のポートレート・ビデオ・ジェネレーションの進歩は注目に値する。しかし、既存の手法は人間の先行モデルや事前学習された生成モデルに大きく依存しており、人間の先行モデルに基づく運動表現は非現実的な動きをもたらすことがある。これらの課題に対処するために,コンパクトかつ表現力のある動き表現であるSemantic Latent Motion (SeMo)を提案する。この表現を活用することで、我々は高品質な視覚的結果と効率的な推論の両方を達成できる。 SeMoは、抽象、推論、生成という3段階の効果的なフレームワークに従っている。まず,参加者の動作状態をコンパクトかつ抽象的な潜在動作(1Dトークン)に圧縮するために,自己指導型学習パラダイムを活用するMasked Motion Encoderを慎重に設計した。第2に、推論ステップにおいて、駆動音声信号に基づいて、動作シーケンスを効率的に生成する。最後に、生成ステップにおいて、モーションダイナミクスは、参照フレームからターゲットビデオへの現実的な遷移を合成する際に、モーションデコーダを誘導する条件情報として機能する。セマンティックラテントモーションのコンパクトかつ表現的な性質により,効率的な動き表現と高品質な映像生成を実現する。ユーザスタディは、我々のアプローチが、現実主義における81%の勝利率で最先端のモデルを上回ることを示した。大規模な実験は、その強い圧縮能力、復元品質、および生成可能性をさらに強調する。

関連論文リスト

GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文参考訳（メタデータ） (2024-11-30T17:40:49Z)
Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文参考訳（メタデータ） (2022-10-27T02:45:48Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文参考訳（メタデータ） (2020-12-20T16:54:38Z)
Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文参考訳（メタデータ） (2020-08-25T02:31:41Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。