論文の概要: Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal
- arxiv url: http://arxiv.org/abs/2512.12875v1
- Date: Sun, 14 Dec 2025 23:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.47857
- Title: Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal
- Title(参考訳): Schrodinger Audio-Visual Editor:Object-Level Audiovisualectomy
- Authors: Weihan Xu, Kan Jen Cheng, Koichi Saito, Muhammad Jehanzeb Mirza, Tingle Li, Yisi Liu, Alexander H. Liu, Liming Wang, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, Gopala Anumanchipalli, Paul Pu Liang,
- Abstract要約: SAVEBenchは、テキストとマスク条件を備えたペアオーディオヴィジュアルデータセットで、オブジェクト指向のソース・ツー・ターゲット学習を可能にする。
SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。
評価の結果,提案したSAVEモデルは,残したコンテンツを保存しながら,音声・視覚コンテンツ中の対象オブジェクトを除去できることがわかった。
- 参考スコア(独自算出の注目度): 90.14887235360611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint editing of audio and visual content is crucial for precise and controllable content creation. This new task poses challenges due to the limitations of paired audio-visual data before and after targeted edits, and the heterogeneity across modalities. To address the data and modeling challenges in joint audio-visual editing, we introduce SAVEBench, a paired audiovisual dataset with text and mask conditions to enable object-grounded source-to-target learning. With SAVEBench, we train the Schrodinger Audio-Visual Editor (SAVE), an end-to-end flow-matching model that edits audio and video in parallel while keeping them aligned throughout processing. SAVE incorporates a Schrodinger Bridge that learns a direct transport from source to target audiovisual mixtures. Our evaluation demonstrates that the proposed SAVE model is able to remove the target objects in audio and visual content while preserving the remaining content, with stronger temporal synchronization and audiovisual semantic correspondence compared with pairwise combinations of an audio editor and a video editor.
- Abstract(参考訳): 音声と視覚コンテンツの共同編集は、正確かつ制御可能なコンテンツ作成に不可欠である。
この新たなタスクは、ターゲット編集前後のペア音声-視覚データの制限と、モーダル間の不均一性により、課題を提起する。
共同音声-視覚編集におけるデータとモデリングの課題に対処するために,テキストとマスク条件を併用したペアオーディオ視覚データセットであるSAVEBenchを導入し,オブジェクト指向のソース・ツー・ターゲット学習を実現する。
SAVEBenchでは、音声とビデオを並列に編集し、処理全体にわたって整列を維持しながら、エンドツーエンドのフローマッチングモデルであるSchrodinger Audio-Visual Editor(SAVE)をトレーニングする。
SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。
提案したSAVEモデルは,音声エディタとビデオエディタのペアの組み合わせと比較して,時間的同期と音声視覚的セマンティック対応が強く,残したコンテンツを保存しながら,音声および視覚コンテンツ中の対象オブジェクトを除去可能であることを示す。
関連論文リスト
- Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文 参考訳(メタデータ) (2025-12-11T11:58:53Z) - Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits [33.1393328136321]
編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
論文 参考訳(メタデータ) (2025-12-08T06:45:11Z) - AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。
この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。
AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文 参考訳(メタデータ) (2025-03-26T17:59:04Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。