論文の概要: Object-AVEdit: An Object-level Audio-Visual Editing Model
- arxiv url: http://arxiv.org/abs/2510.00050v1
- Date: Sat, 27 Sep 2025 18:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.138414
- Title: Object-AVEdit: An Object-level Audio-Visual Editing Model
- Title(参考訳): Object-AVEdit:オブジェクトレベルのオーディオビジュアル編集モデル
- Authors: Youquan Fu, Ruiyang Si, Hongfa Wang, Dongzhan Zhou, Jiacheng Sun, Ping Luo, Di Hu, Hongyuan Zhang, Xuelong Li,
- Abstract要約: インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 79.62095842136115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a high demand for audio-visual editing in video post-production and the film making field. While numerous models have explored audio and video editing, they struggle with object-level audio-visual operations. Specifically, object-level audio-visual editing requires the ability to perform object addition, replacement, and removal across both audio and visual modalities, while preserving the structural information of the source instances during the editing process. In this paper, we present \textbf{Object-AVEdit}, achieving the object-level audio-visual editing based on the inversion-regeneration paradigm. To achieve the object-level controllability during editing, we develop a word-to-sounding-object well-aligned audio generation model, bridging the gap in object-controllability between audio and current video generation models. Meanwhile, to achieve the better structural information preservation and object-level editing effect, we propose an inversion-regeneration holistically-optimized editing algorithm, ensuring both information retention during the inversion and better regeneration effect. Extensive experiments demonstrate that our editing model achieved advanced results in both audio-video object-level editing tasks with fine audio-visual semantic alignment. In addition, our developed audio generation model also achieved advanced performance. More results on our project page: https://gewu-lab.github.io/Object_AVEdit-website/.
- Abstract(参考訳): 映像のポストプロダクションや映画制作分野におけるオーディオ映像編集の需要が高まっている。
多くのモデルがオーディオとビデオの編集を探求してきたが、それらはオブジェクトレベルのオーディオ視覚操作に苦慮している。
具体的には、オブジェクトレベルのオーディオ視覚編集は、編集プロセス中にソースインスタンスの構造情報を保存しながら、オーディオと視覚の両方でオブジェクトの追加、置換、削除を行う機能を必要とする。
本稿では,インバージョン再生パラダイムに基づくオブジェクトレベルの音声-視覚編集を実現するための「textbf{Object-AVEdit}」を提案する。
編集中のオブジェクトレベルの可制御性を実現するために,音声と現在のビデオ生成モデル間のオブジェクトの可制御性のギャップを埋める,単語対音オブジェクトの良質な音声生成モデルを開発した。
一方、より優れた構造情報保存とオブジェクトレベルの編集効果を達成するために、インバージョン更新に最適化された編集アルゴリズムを提案し、インバージョン時の情報保持と再生効果の両立を保証した。
広汎な実験により,音声・視覚的セマンティックアライメントを備えたオーディオ・ビデオ・オブジェクトレベルの編集作業において,編集モデルが高度な結果を得たことが実証された。
さらに,我々の開発した音声生成モデルも高度な性能を実現した。
プロジェクトページのさらなる結果:https://gewu-lab.github.io/Object_AVEdit-website/。
関連論文リスト
- Guiding Audio Editing with Audio Language Model [13.126858950459557]
本稿では,ステレオ音声編集のための新しいフレームワークであるSmartDJを紹介する。
高レベルの命令が与えられたら、SmartDJはそれを一連のアトミックな編集操作に分解する。
これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
論文 参考訳(メタデータ) (2025-09-25T21:43:45Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。
そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。
音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文 参考訳(メタデータ) (2025-07-07T13:01:50Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。