論文の概要: In-Context Sync-LoRA for Portrait Video Editing
- arxiv url: http://arxiv.org/abs/2512.03013v1
- Date: Tue, 02 Dec 2025 18:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.007145
- Title: In-Context Sync-LoRA for Portrait Video Editing
- Title(参考訳): 画像編集のためのIn-Context Sync-LoRA
- Authors: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or,
- Abstract要約: Sync-LoRAは、高品質な視覚的修正を実現するポートレートビデオの編集方法である。
我々は、同一の運動軌跡を描写するが外観が異なるペアビデオを用いて、文脈内LoRAを訓練する。
このトレーニング設定は、ソースビデオからのモーションキューと、編集された第1フレームに導入された視覚的変化を組み合わせることをモデルに教える。
- 参考スコア(独自算出の注目度): 66.21215915461069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.
- Abstract(参考訳): ポートレートビデオの編集は、外見の変化、表現の編集、オブジェクトの追加など、幅広い変更を柔軟かつ正確に制御する必要がある、難しい作業である。
重要な困難は、被験者の本来の時間的行動を保存することであり、全ての編集されたフレームが対応するソースフレームと正確に同期することを要求する。
フレームの正確な同期とアイデンティティの整合性を保ちながら、高品質な視覚的修正を実現する、ポートレートビデオの編集方法Sync-LoRAを提案する。
提案手法は画像と映像の拡散モデルを用いており、編集は第1フレームを変更して全シーケンスに伝播することによって定義される。
正確な同期を実現するために、同一の運動軌跡を描写するが外観が異なるペアビデオを用いてコンテキスト内LoRAを訓練する。
これらのペアは同期ベースのフィルタリングプロセスを通じて自動生成され、トレーニングにおいて最も時間的に整列した例のみを選択する。
このトレーニング設定は、ソースビデオからのモーションキューと、編集された第1フレームに導入された視覚的変化を組み合わせることをモデルに教える。
Sync-LoRAは、コンパクトで高度にキュレートされた人間の肖像画に基づいて訓練され、未確認のアイデンティティと多様な編集(外観の変更、オブジェクトの追加、背景の変更など)に一般化し、ポーズと表現のバリエーションをしっかりと扱う。
その結果,高い視覚的忠実度と強い時間的コヒーレンスを示し,編集忠実度と正確な運動保存のバランスを保った。
関連論文リスト
- Follow Your Motion: A Generic Temporal Consistency Portrait Editing Framework with Trajectory Guidance [27.1886214162329]
Follow Your Motionは、肖像画編集における時間的一貫性を維持するための一般的なフレームワークである。
音声頭部編集における微粒化表現の時間的整合性を維持するため,動的再重み付き注意機構を提案する。
論文 参考訳(メタデータ) (2025-03-28T08:18:05Z) - RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing [82.132107140504]
本稿では,多目的かつ適応可能な編集戦略を提供する,トレーニングフリーのユニバーサル・ポートレート・ビデオ編集フレームワークを提案する。
変更された第1参照フレームに設定されたポートレートの外観編集と、さまざまな音声に設定されたリップ編集をサポートする。
本モデルでは, 口唇編集作業において, より正確かつ同期的な唇運動を実現するとともに, 外観編集作業においてより柔軟な動き伝達を実現することができる。
論文 参考訳(メタデータ) (2025-03-14T16:39:15Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。