論文の概要: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner
- arxiv url: http://arxiv.org/abs/2512.10571v1
- Date: Thu, 11 Dec 2025 11:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.350326
- Title: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner
- Title(参考訳): 粒度対応マスクリファイナによる音声同期ビデオインスタンスの編集
- Authors: Haojie Zheng, Shuchen Weng, Jingqi Liu, Siqi Yang, Boxin Shi, Xinlong Wang,
- Abstract要約: AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
- 参考スコア(独自算出の注目度): 66.96392168346851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video generation highlight that realistic audio-visual synchronization is crucial for engaging content creation. However, existing video editing methods largely overlook audio-visual synchronization and lack the fine-grained spatial and temporal controllability required for precise instance-level edits. In this paper, we propose AVI-Edit, a framework for audio-sync video instance editing. We propose a granularity-aware mask refiner that iteratively refines coarse user-provided masks into precise instance-level regions. We further design a self-feedback audio agent to curate high-quality audio guidance, providing fine-grained temporal control. To facilitate this task, we additionally construct a large-scale dataset with instance-centric correspondence and comprehensive annotations. Extensive experiments demonstrate that AVI-Edit outperforms state-of-the-art methods in visual quality, condition following, and audio-visual synchronization. Project page: https://hjzheng.net/projects/AVI-Edit/.
- Abstract(参考訳): 映像生成の最近の進歩は、リアルなオーディオと視覚の同期がコンテンツ制作に不可欠であることを強調している。
しかし、既存のビデオ編集手法は音声と視覚の同期をほとんど見落としており、精密なインスタンスレベルの編集に必要な空間的・時間的制御性に欠ける。
本稿では,音声同期ビデオインスタンス編集のためのフレームワークであるAVI-Editを提案する。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
さらに、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を実現するセルフフィードバックオーディオエージェントを設計する。
この作業を容易にするために、インスタンス中心の対応と包括的なアノテーションを備えた大規模データセットを構築する。
大規模な実験により、AVI-Editは視覚的品質、条件追従、音声視覚同期において最先端の手法より優れていることが示された。
プロジェクトページ: https://hjjheng.net/projects/AVI-Edit/。
関連論文リスト
- Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits [33.1393328136321]
編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
論文 参考訳(メタデータ) (2025-12-08T06:45:11Z) - AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文 参考訳(メタデータ) (2025-09-17T14:13:40Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文 参考訳(メタデータ) (2025-06-09T17:59:42Z) - Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。
この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。
AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文 参考訳(メタデータ) (2025-03-26T17:59:04Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。