論文の概要: Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance
- arxiv url: http://arxiv.org/abs/2503.22225v1
- Date: Fri, 28 Mar 2025 08:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:34.845766
- Title: Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance
- Title(参考訳): Follow Your Motion: トラジェクティブ誘導による時間一貫性画像編集フレームワーク
- Authors: Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang,
- Abstract要約: Follow Your Motionは、肖像画編集における時間的一貫性を維持するための一般的なフレームワークである。
音声頭部編集における微粒化表現の時間的整合性を維持するため,動的再重み付き注意機構を提案する。
- 参考スコア(独自算出の注目度): 27.1886214162329
- License:
- Abstract: Pre-trained conditional diffusion models have demonstrated remarkable potential in image editing. However, they often face challenges with temporal consistency, particularly in the talking head domain, where continuous changes in facial expressions intensify the level of difficulty. These issues stem from the independent editing of individual images and the inherent loss of temporal continuity during the editing process. In this paper, we introduce Follow Your Motion (FYM), a generic framework for maintaining temporal consistency in portrait editing. Specifically, given portrait images rendered by a pre-trained 3D Gaussian Splatting model, we first develop a diffusion model that intuitively and inherently learns motion trajectory changes at different scales and pixel coordinates, from the first frame to each subsequent frame. This approach ensures that temporally inconsistent edited avatars inherit the motion information from the rendered avatars. Secondly, to maintain fine-grained expression temporal consistency in talking head editing, we propose a dynamic re-weighted attention mechanism. This mechanism assigns higher weight coefficients to landmark points in space and dynamically updates these weights based on landmark loss, achieving more consistent and refined facial expressions. Extensive experiments demonstrate that our method outperforms existing approaches in terms of temporal consistency and can be used to optimize and compensate for temporally inconsistent outputs in a range of applications, such as text-driven editing, relighting, and various other applications.
- Abstract(参考訳): 事前訓練された条件付き拡散モデルは、画像編集において顕著な可能性を示している。
しかし、顔の表情の連続的な変化が難易度を増すような話頭領域では、時間的一貫性の課題に直面していることが多い。
これらの問題は、個々の画像の独立した編集と、編集過程における時間的連続性の固有の欠如に起因している。
本稿では,肖像画編集における時間的一貫性を維持するための一般的なフレームワークであるFollow Your Motion (FYM)を紹介する。
具体的には,事前学習した3次元ガウス平板モデルで描かれたポートレート画像から,まず,第1フレームから第2フレームまでの異なるスケールおよび画素座標の運動軌跡変化を直感的に,本質的に学習する拡散モデルを開発する。
このアプローチは、時間的に一貫性のない編集されたアバターが、レンダリングされたアバターから動作情報を継承することを保証する。
次に,音声頭部編集における微粒化表現の時間的整合性を維持するため,動的再重み付け機構を提案する。
このメカニズムは、空間のランドマーク点に高い重み係数を割り当て、ランドマーク損失に基づいてこれらの重みを動的に更新し、より一貫性があり洗練された表情を実現する。
大規模な実験により,本手法は時間的一貫性の点で既存手法よりも優れており,テキスト駆動編集,リライト,その他様々なアプリケーションにおいて,時間的不整合出力の最適化と補償に利用できることが示された。
関連論文リスト
- FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Temporally Consistent Semantic Video Editing [44.50322018842475]
本稿では、時間的コヒーレントなビデオ編集を容易にするための、シンプルで効果的な方法を提案する。
我々の中核となる考え方は、潜在コードと事前学習されたジェネレータの両方を最適化することで、時間的測光の不整合を最小限にすることである。
論文 参考訳(メタデータ) (2022-06-21T17:59:59Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。