論文の概要: OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing
- arxiv url: http://arxiv.org/abs/2603.09084v1
- Date: Tue, 10 Mar 2026 01:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.936177
- Title: OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing
- Title(参考訳): OmniEdit: リップ同期とオーディオ-ビジュアル編集のためのトレーニング不要フレームワーク
- Authors: Lixiang Lin, Siyuan Jin, Jinshan Zhang,
- Abstract要約: マルチモーダル学習において,リップ同期と音声視覚編集が基本的な課題として浮上している。
OmniEditは、リップ同期とオーディオ視覚編集の両方のために設計されたトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 4.709101341936703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip synchronization and audio-visual editing have emerged as fundamental challenges in multimodal learning, underpinning a wide range of applications, including film production, virtual avatars, and telepresence. Despite recent progress, most existing methods for lip synchronization and audio-visual editing depend on supervised fine-tuning of pre-trained models, leading to considerable computational overhead and data requirements. In this paper, we present OmniEdit, a training-free framework designed for both lip synchronization and audio-visual editing. Our approach reformulates the editing paradigm by substituting the edit sequence in FlowEdit with the target sequence, yielding an unbiased estimation of the desired output. Moreover, by removing stochastic elements from the generation process, we establish a smooth and stable editing trajectory. Extensive experimental results validate the effectiveness and robustness of the proposed framework. Code is available at https://github.com/l1346792580123/OmniEdit.
- Abstract(参考訳): リップ同期とオーディオ視覚編集はマルチモーダル学習における基本的な課題として現れ、映画製作、仮想アバター、テレプレゼンスなど幅広い応用を支えている。
近年の進歩にもかかわらず、リップ同期とオーディオ視覚編集の既存の手法は、事前訓練されたモデルの教師付き微調整に依存しており、かなりの計算オーバーヘッドとデータ要求をもたらす。
本稿では,リップ同期とオーディオ視覚編集の両方のために設計されたトレーニング不要のフレームワークであるOmniEditを紹介する。
提案手法は,FlowEditの編集シーケンスを対象シーケンスに置き換えることで編集パラダイムを再構築し,所望の出力を非バイアスで推定する。
さらに、生成過程から確率的要素を除去することにより、スムーズで安定した編集軌道を確立する。
大規模実験により,提案手法の有効性とロバスト性を検証した。
コードはhttps://github.com/l1346792580123/OmniEditで入手できる。
関連論文リスト
- Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance [55.32799307123252]
本稿では,既存のビデオ編集ペアを高忠実度トレーニング四重項に変換するスケーラブルなデータ生成パイプラインを提案する。
本稿では,学習可能なクエリと参照セマンティックガイダンスのための潜在視覚特徴を相乗化する統合編集アーキテクチャKiwi-Editを提案する。
論文 参考訳(メタデータ) (2026-03-02T18:46:28Z) - From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing [24.998261989251976]
そこで本稿では,不適切な塗布作業から映像間編集問題への視覚的ダビングを再構成するセルフブートストラップフレームワークを提案する。
我々のアプローチでは、まずデータジェネレータとしてDiffusion Transformerを使用し、理想的なトレーニングデータを合成する。
DiDubTベースのオーディオ駆動エディタは、これらのペアをエンドツーエンドでトレーニングし、完全な入力ビデオフレームを活用して、正確なオーディオ駆動リップ修正のみに集中する。
論文 参考訳(メタデータ) (2025-12-31T18:58:30Z) - Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文 参考訳(メタデータ) (2025-12-11T11:58:53Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文 参考訳(メタデータ) (2025-09-17T14:13:40Z) - O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing [82.132107140504]
本稿では,多目的かつ適応可能な編集戦略を提供する,トレーニングフリーのユニバーサル・ポートレート・ビデオ編集フレームワークを提案する。
変更された第1参照フレームに設定されたポートレートの外観編集と、さまざまな音声に設定されたリップ編集をサポートする。
本モデルでは, 口唇編集作業において, より正確かつ同期的な唇運動を実現するとともに, 外観編集作業においてより柔軟な動き伝達を実現することができる。
論文 参考訳(メタデータ) (2025-03-14T16:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。