論文の概要: Video Editing for Audio-Visual Dubbing
- arxiv url: http://arxiv.org/abs/2505.23406v1
- Date: Thu, 29 May 2025 12:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.856035
- Title: Video Editing for Audio-Visual Dubbing
- Title(参考訳): オーディオ・ビジュアル・ダビングのためのビデオ編集
- Authors: Binyamin Manela, Sharon Gannot, Ethan Fetyaya,
- Abstract要約: EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。
それは、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。
- 参考スコア(独自算出の注目度): 11.063156506583562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual dubbing, the synchronization of facial movements with new speech, is crucial for making content accessible across different languages, enabling broader global reach. However, current methods face significant limitations. Existing approaches often generate talking faces, hindering seamless integration into original scenes, or employ inpainting techniques that discard vital visual information like partial occlusions and lighting variations. This work introduces EdiDub, a novel framework that reformulates visual dubbing as a content-aware editing task. EdiDub preserves the original video context by utilizing a specialized conditioning scheme to ensure faithful and accurate modifications rather than mere copying. On multiple benchmarks, including a challenging occluded-lip dataset, EdiDub significantly improves identity preservation and synchronization. Human evaluations further confirm its superiority, achieving higher synchronization and visual naturalness scores compared to the leading methods. These results demonstrate that our content-aware editing approach outperforms traditional generation or inpainting, particularly in maintaining complex visual elements while ensuring accurate lip synchronization.
- Abstract(参考訳): 顔の動きと新しい音声の同期である視覚ダビングは、さまざまな言語でコンテンツにアクセスできるようにするために不可欠であり、より広範なグローバルなリーチを可能にしている。
しかし、現在の手法には重大な制限がある。
既存のアプローチでは、会話の顔を生成したり、元のシーンへのシームレスな統合を妨げることや、部分的な閉塞や照明のバリエーションといった重要な視覚情報を捨てる塗装技術を使用していることが少なくない。
EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。
EdiDubは、単なるコピーではなく、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。
挑戦的なOccluded-lipデータセットを含む複数のベンチマークでは、EdiDubはアイデンティティの保存と同期を大幅に改善している。
人間の評価は、その優位性をさらに確認し、先行する手法と比較して、高い同期性と視覚的自然度スコアを達成する。
以上の結果から,我々のコンテンツ認識編集アプローチは,特に複雑な視覚的要素の維持と,正確な唇の同期の確保において,従来の生成や塗り絵よりも優れていたことが示唆された。
関連論文リスト
- UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。
我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。
UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-03-20T17:16:03Z) - Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文 参考訳(メタデータ) (2025-03-08T16:27:53Z) - Identity-Preserving Video Dubbing Using Motion Warping [26.10803670509977]
ビデオダビングは、レファレンスビデオと駆動オーディオ信号からリアルでリップシンクされたビデオを合成することを目的としている。
本稿では,ビデオダビングのためのIPTalkerを提案する。
IPTalkerは、リアリズム、リップ同期、アイデンティティ保持の観点から、既存のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-08T16:06:21Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。