Fugu-MT 論文翻訳(概要): MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

論文の概要: MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

arxiv url: http://arxiv.org/abs/2406.19680v1
Date: Fri, 28 Jun 2024 06:40:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 17:39:39.583508
Title: MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
Title（参考訳）: MimicMotion:信頼を意識した姿勢誘導による高品質な人間のモーションビデオ生成
Authors: Yuang Zhang, Jiaxi Gu, Li-Wen Wang, Han Wang, Junqi Cheng, Yuefeng Zhu, Fangyuan Zou,
Abstract要約: 我々は、任意の長さの高品質なビデオを生成することができるMimicMotionと呼ばれる制御可能なビデオ生成フレームワークを提案する。信頼を意識したポーズガイダンスは、高いフレーム品質と時間的滑らかさを保証する。長大かつスムーズなビデオを生成するために,我々は進行的な潜伏融合戦略を提案する。
参考スコア（独自算出の注目度）: 11.267119929093042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, generative artificial intelligence has achieved significant advancements in the field of image generation, spawning a variety of applications. However, video generation still faces considerable challenges in various aspects, such as controllability, video length, and richness of details, which hinder the application and popularization of this technology. In this work, we propose a controllable video generation framework, dubbed MimicMotion, which can generate high-quality videos of arbitrary length mimicking specific motion guidance. Compared with previous methods, our approach has several highlights. Firstly, we introduce confidence-aware pose guidance that ensures high frame quality and temporal smoothness. Secondly, we introduce regional loss amplification based on pose confidence, which significantly reduces image distortion. Lastly, for generating long and smooth videos, we propose a progressive latent fusion strategy. By this means, we can produce videos of arbitrary length with acceptable resource consumption. With extensive experiments and user studies, MimicMotion demonstrates significant improvements over previous approaches in various aspects. Detailed results and comparisons are available on our project page: https://tencent.github.io/MimicMotion .
Abstract（参考訳）: 近年、生成人工知能は画像生成の分野で大きな進歩を遂げ、様々な応用を生み出している。しかし、ビデオ生成は、制御性、ビデオの長さ、詳細性の豊かさなど、様々な面で大きな課題に直面しており、この技術の適用と普及を妨げている。本研究では,特定の動作指示を模倣した任意の長さの高品質なビデオを生成することができるMimicMotionという,制御可能なビデオ生成フレームワークを提案する。従来の手法と比較して,本手法にはいくつかの特徴がある。まず、高いフレーム品質と時間的滑らか性を保証する信頼度対応ポーズガイダンスを導入する。第2に、ポーズ信頼度に基づく局所的損失増幅を導入し、画像歪みを大幅に低減する。最後に、長大かつスムーズなビデオを生成するために、進行的な潜伏融合戦略を提案する。これにより、任意の長さの動画を、許容範囲のリソース消費で作成することができる。広範な実験とユーザスタディにより、MimicMotionは様々な面で以前のアプローチよりも大幅に改善されている。詳細な結果と比較はプロジェクトのページで確認できる。

関連論文リスト

Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance [2.5941932242768457]
マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
論文参考訳（メタデータ） (2025-03-24T06:53:08Z)
VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文参考訳（メタデータ） (2025-03-13T00:47:59Z)
Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation [2.4240014793575138]
この記事の執筆時点では、現在最先端のシステムであるOpenAIのSoraは、最大1分間のビデオ制作に制限されている。本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長大映像の評価のための品質指標,および既存の映像生成能力の限界に対処するための今後の研究領域について,現在の長大映像生成の状況について検討する。
論文参考訳（メタデータ） (2024-12-24T21:24:41Z)
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。 DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文参考訳（メタデータ） (2024-10-17T16:32:36Z)
Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文参考訳（メタデータ） (2024-07-23T02:10:50Z)
Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文参考訳（メタデータ） (2024-07-21T13:14:17Z)
AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文参考訳（メタデータ） (2024-03-04T07:41:50Z)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文参考訳（メタデータ） (2024-02-22T18:55:08Z)
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文参考訳（メタデータ） (2023-12-05T03:16:31Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)
Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文参考訳（メタデータ） (2022-11-23T18:58:39Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。