Fugu-MT 論文翻訳(概要): Object-AVEdit: An Object-level Audio-Visual Editing Model

論文の概要: Object-AVEdit: An Object-level Audio-Visual Editing Model

arxiv url: http://arxiv.org/abs/2510.00050v1
Date: Sat, 27 Sep 2025 18:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.138414
Title: Object-AVEdit: An Object-level Audio-Visual Editing Model
Title（参考訳）: Object-AVEdit:オブジェクトレベルのオーディオビジュアル編集モデル
Authors: Youquan Fu, Ruiyang Si, Hongfa Wang, Dongzhan Zhou, Jiacheng Sun, Ping Luo, Di Hu, Hongyuan Zhang, Xuelong Li,
Abstract要約: インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 79.62095842136115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a high demand for audio-visual editing in video post-production and the film making field. While numerous models have explored audio and video editing, they struggle with object-level audio-visual operations. Specifically, object-level audio-visual editing requires the ability to perform object addition, replacement, and removal across both audio and visual modalities, while preserving the structural information of the source instances during the editing process. In this paper, we present \textbf{Object-AVEdit}, achieving the object-level audio-visual editing based on the inversion-regeneration paradigm. To achieve the object-level controllability during editing, we develop a word-to-sounding-object well-aligned audio generation model, bridging the gap in object-controllability between audio and current video generation models. Meanwhile, to achieve the better structural information preservation and object-level editing effect, we propose an inversion-regeneration holistically-optimized editing algorithm, ensuring both information retention during the inversion and better regeneration effect. Extensive experiments demonstrate that our editing model achieved advanced results in both audio-video object-level editing tasks with fine audio-visual semantic alignment. In addition, our developed audio generation model also achieved advanced performance. More results on our project page: https://gewu-lab.github.io/Object_AVEdit-website/.
Abstract（参考訳）: 映像のポストプロダクションや映画制作分野におけるオーディオ映像編集の需要が高まっている。多くのモデルがオーディオとビデオの編集を探求してきたが、それらはオブジェクトレベルのオーディオ視覚操作に苦慮している。具体的には、オブジェクトレベルのオーディオ視覚編集は、編集プロセス中にソースインスタンスの構造情報を保存しながら、オーディオと視覚の両方でオブジェクトの追加、置換、削除を行う機能を必要とする。本稿では,インバージョン再生パラダイムに基づくオブジェクトレベルの音声-視覚編集を実現するための「textbf{Object-AVEdit}」を提案する。編集中のオブジェクトレベルの可制御性を実現するために,音声と現在のビデオ生成モデル間のオブジェクトの可制御性のギャップを埋める,単語対音オブジェクトの良質な音声生成モデルを開発した。一方、より優れた構造情報保存とオブジェクトレベルの編集効果を達成するために、インバージョン更新に最適化された編集アルゴリズムを提案し、インバージョン時の情報保持と再生効果の両立を保証した。広汎な実験により,音声・視覚的セマンティックアライメントを備えたオーディオ・ビデオ・オブジェクトレベルの編集作業において,編集モデルが高度な結果を得たことが実証された。さらに,我々の開発した音声生成モデルも高度な性能を実現した。プロジェクトページのさらなる結果:https://gewu-lab.github.io/Object_AVEdit-website/。

論文の概要: Object-AVEdit: An Object-level Audio-Visual Editing Model

関連論文リスト