論文の概要: RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing
- arxiv url: http://arxiv.org/abs/2503.11571v1
- Date: Fri, 14 Mar 2025 16:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:58.632185
- Title: RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing
- Title(参考訳): RASA: 誰でも置き換えて、何でも言う - オーディオ駆動でユニバーサルなポートレートビデオ編集のためのトレーニング不要のフレームワーク
- Authors: Tianrui Pan, Lin Liu, Jie Liu, Xiaopeng Zhang, Jie Tang, Gangshan Wu, Qi Tian,
- Abstract要約: 本稿では,多目的かつ適応可能な編集戦略を提供する,トレーニングフリーのユニバーサル・ポートレート・ビデオ編集フレームワークを提案する。
変更された第1参照フレームに設定されたポートレートの外観編集と、さまざまな音声に設定されたリップ編集をサポートする。
本モデルでは, 口唇編集作業において, より正確かつ同期的な唇運動を実現するとともに, 外観編集作業においてより柔軟な動き伝達を実現することができる。
- 参考スコア(独自算出の注目度): 82.132107140504
- License:
- Abstract: Portrait video editing focuses on modifying specific attributes of portrait videos, guided by audio or video streams. Previous methods typically either concentrate on lip-region reenactment or require training specialized models to extract keypoints for motion transfer to a new identity. In this paper, we introduce a training-free universal portrait video editing framework that provides a versatile and adaptable editing strategy. This framework supports portrait appearance editing conditioned on the changed first reference frame, as well as lip editing conditioned on varied speech, or a combination of both. It is based on a Unified Animation Control (UAC) mechanism with source inversion latents to edit the entire portrait, including visual-driven shape control, audio-driven speaking control, and inter-frame temporal control. Furthermore, our method can be adapted to different scenarios by adjusting the initial reference frame, enabling detailed editing of portrait videos with specific head rotations and facial expressions. This comprehensive approach ensures a holistic and flexible solution for portrait video editing. The experimental results show that our model can achieve more accurate and synchronized lip movements for the lip editing task, as well as more flexible motion transfer for the appearance editing task. Demo is available at https://alice01010101.github.io/RASA/.
- Abstract(参考訳): ポートレートビデオ編集は、オーディオまたはビデオストリームでガイドされたポートレートビデオの特定の属性を変更することに焦点を当てている。
従来の手法では、リップ領域の再現に集中するか、新しいアイデンティティに移動するためのキーポイントを抽出するために特別なモデルを訓練する必要がある。
本稿では,多目的かつ適応可能な編集戦略を提供する,トレーニングフリーのユニバーサル・ポートレート・ビデオ編集フレームワークを提案する。
このフレームワークは、変更された第1参照フレームに設定されたポートレートの外観編集、およびさまざまな音声に設定されたリップ編集、またはその両方の組み合わせをサポートする。
これは、画像駆動型形状制御、音声駆動型発話制御、フレーム間時間制御を含む、ポートレート全体を編集するためのソースインバージョンラテントを備えた統一アニメーション制御(UAC)機構に基づいている。
さらに、初期参照フレームを調整し、特定の頭部回転と表情によるポートレートビデオの詳細な編集を可能にすることで、異なるシナリオに適応することができる。
この包括的なアプローチにより、ポートレートビデオ編集の全体的かつ柔軟なソリューションが保証される。
実験結果から,本モデルは口唇編集作業においてより正確かつ同期的な唇運動を実現するとともに,外観編集作業においてより柔軟な動き伝達を実現することができることがわかった。
デモはhttps://alice010101.github.io/RASA/で公開されている。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。