論文の概要: Object-AVEdit: An Object-level Audio-Visual Editing Model
- arxiv url: http://arxiv.org/abs/2510.00050v1
- Date: Sat, 27 Sep 2025 18:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.138414
- Title: Object-AVEdit: An Object-level Audio-Visual Editing Model
- Title(参考訳): Object-AVEdit:オブジェクトレベルのオーディオビジュアル編集モデル
- Authors: Youquan Fu, Ruiyang Si, Hongfa Wang, Dongzhan Zhou, Jiacheng Sun, Ping Luo, Di Hu, Hongyuan Zhang, Xuelong Li,
- Abstract要約: インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 79.62095842136115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a high demand for audio-visual editing in video post-production and the film making field. While numerous models have explored audio and video editing, they struggle with object-level audio-visual operations. Specifically, object-level audio-visual editing requires the ability to perform object addition, replacement, and removal across both audio and visual modalities, while preserving the structural information of the source instances during the editing process. In this paper, we present \textbf{Object-AVEdit}, achieving the object-level audio-visual editing based on the inversion-regeneration paradigm. To achieve the object-level controllability during editing, we develop a word-to-sounding-object well-aligned audio generation model, bridging the gap in object-controllability between audio and current video generation models. Meanwhile, to achieve the better structural information preservation and object-level editing effect, we propose an inversion-regeneration holistically-optimized editing algorithm, ensuring both information retention during the inversion and better regeneration effect. Extensive experiments demonstrate that our editing model achieved advanced results in both audio-video object-level editing tasks with fine audio-visual semantic alignment. In addition, our developed audio generation model also achieved advanced performance. More results on our project page: https://gewu-lab.github.io/Object_AVEdit-website/.
- Abstract(参考訳): 映像のポストプロダクションや映画制作分野におけるオーディオ映像編集の需要が高まっている。
多くのモデルがオーディオとビデオの編集を探求してきたが、それらはオブジェクトレベルのオーディオ視覚操作に苦慮している。
具体的には、オブジェクトレベルのオーディオ視覚編集は、編集プロセス中にソースインスタンスの構造情報を保存しながら、オーディオと視覚の両方でオブジェクトの追加、置換、削除を行う機能を必要とする。
本稿では,インバージョン再生パラダイムに基づくオブジェクトレベルの音声-視覚編集を実現するための「textbf{Object-AVEdit}」を提案する。
編集中のオブジェクトレベルの可制御性を実現するために,音声と現在のビデオ生成モデル間のオブジェクトの可制御性のギャップを埋める,単語対音オブジェクトの良質な音声生成モデルを開発した。
一方、より優れた構造情報保存とオブジェクトレベルの編集効果を達成するために、インバージョン更新に最適化された編集アルゴリズムを提案し、インバージョン時の情報保持と再生効果の両立を保証した。
広汎な実験により,音声・視覚的セマンティックアライメントを備えたオーディオ・ビデオ・オブジェクトレベルの編集作業において,編集モデルが高度な結果を得たことが実証された。
さらに,我々の開発した音声生成モデルも高度な性能を実現した。
プロジェクトページのさらなる結果:https://gewu-lab.github.io/Object_AVEdit-website/。
関連論文リスト
- Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal [90.14887235360611]
SAVEBenchは、テキストとマスク条件を備えたペアオーディオヴィジュアルデータセットで、オブジェクト指向のソース・ツー・ターゲット学習を可能にする。
SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。
評価の結果,提案したSAVEモデルは,残したコンテンツを保存しながら,音声・視覚コンテンツ中の対象オブジェクトを除去できることがわかった。
論文 参考訳(メタデータ) (2025-12-14T23:19:15Z) - Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文 参考訳(メタデータ) (2025-12-11T11:58:53Z) - Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits [33.1393328136321]
編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
論文 参考訳(メタデータ) (2025-12-08T06:45:11Z) - AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - Guiding Audio Editing with Audio Language Model [13.126858950459557]
本稿では,ステレオ音声編集のための新しいフレームワークであるSmartDJを紹介する。
高レベルの命令が与えられたら、SmartDJはそれを一連のアトミックな編集操作に分解する。
これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
論文 参考訳(メタデータ) (2025-09-25T21:43:45Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。