Fugu-MT 論文翻訳(概要): Video Editing for Audio-Visual Dubbing

論文の概要: Video Editing for Audio-Visual Dubbing

arxiv url: http://arxiv.org/abs/2505.23406v1
Date: Thu, 29 May 2025 12:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.856035
Title: Video Editing for Audio-Visual Dubbing
Title（参考訳）: オーディオ・ビジュアル・ダビングのためのビデオ編集
Authors: Binyamin Manela, Sharon Gannot, Ethan Fetyaya,
Abstract要約: EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。それは、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。
参考スコア（独自算出の注目度）: 11.063156506583562
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual dubbing, the synchronization of facial movements with new speech, is crucial for making content accessible across different languages, enabling broader global reach. However, current methods face significant limitations. Existing approaches often generate talking faces, hindering seamless integration into original scenes, or employ inpainting techniques that discard vital visual information like partial occlusions and lighting variations. This work introduces EdiDub, a novel framework that reformulates visual dubbing as a content-aware editing task. EdiDub preserves the original video context by utilizing a specialized conditioning scheme to ensure faithful and accurate modifications rather than mere copying. On multiple benchmarks, including a challenging occluded-lip dataset, EdiDub significantly improves identity preservation and synchronization. Human evaluations further confirm its superiority, achieving higher synchronization and visual naturalness scores compared to the leading methods. These results demonstrate that our content-aware editing approach outperforms traditional generation or inpainting, particularly in maintaining complex visual elements while ensuring accurate lip synchronization.
Abstract（参考訳）: 顔の動きと新しい音声の同期である視覚ダビングは、さまざまな言語でコンテンツにアクセスできるようにするために不可欠であり、より広範なグローバルなリーチを可能にしている。しかし、現在の手法には重大な制限がある。既存のアプローチでは、会話の顔を生成したり、元のシーンへのシームレスな統合を妨げることや、部分的な閉塞や照明のバリエーションといった重要な視覚情報を捨てる塗装技術を使用していることが少なくない。 EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。 EdiDubは、単なるコピーではなく、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。挑戦的なOccluded-lipデータセットを含む複数のベンチマークでは、EdiDubはアイデンティティの保存と同期を大幅に改善している。人間の評価は、その優位性をさらに確認し、先行する手法と比較して、高い同期性と視覚的自然度スコアを達成する。以上の結果から,我々のコンテンツ認識編集アプローチは,特に複雑な視覚的要素の維持と,正確な唇の同期の確保において,従来の生成や塗り絵よりも優れていたことが示唆された。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。 UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-03-20T17:16:03Z)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳（メタデータ） (2025-03-09T02:36:31Z)
Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文参考訳（メタデータ） (2025-03-08T16:27:53Z)
Identity-Preserving Video Dubbing Using Motion Warping [26.10803670509977]
ビデオダビングは、レファレンスビデオと駆動オーディオ信号からリアルでリップシンクされたビデオを合成することを目的としている。本稿では,ビデオダビングのためのIPTalkerを提案する。 IPTalkerは、リアリズム、リップ同期、アイデンティティ保持の観点から、既存のアプローチを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-08T16:06:21Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。 MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文参考訳（メタデータ） (2024-12-05T18:57:26Z)
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文参考訳（メタデータ） (2024-08-06T16:31:45Z)
StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文参考訳（メタデータ） (2024-02-20T01:28:34Z)
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-10-09T17:59:53Z)
Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-18T15:50:04Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。