論文の概要: Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits
- arxiv url: http://arxiv.org/abs/2512.07209v1
- Date: Mon, 08 Dec 2025 06:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.742732
- Title: Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits
- Title(参考訳): 映像編集後の条件付きオーディオ生成によるコヒーレントオーディオ映像編集
- Authors: Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: 編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
- 参考スコア(独自算出の注目度): 33.1393328136321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel pipeline for joint audio-visual editing that enhances the coherence between edited video and its accompanying audio. Our approach first applies state-of-the-art video editing techniques to produce the target video, then performs audio editing to align with the visual changes. To achieve this, we present a new video-to-audio generation model that conditions on the source audio, target video, and a text prompt. We extend the model architecture to incorporate conditional audio input and propose a data augmentation strategy that improves training efficiency. Furthermore, our model dynamically adjusts the influence of the source audio based on the complexity of the edits, preserving the original audio structure where possible. Experimental results demonstrate that our method outperforms existing approaches in maintaining audio-visual alignment and content integrity.
- Abstract(参考訳): 編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。
提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
そこで本研究では,音源音声,ターゲット映像,テキストプロンプトを条件とした新しい音声合成モデルを提案する。
モデルアーキテクチャを拡張し、条件付き音声入力を導入し、トレーニング効率を向上させるデータ拡張戦略を提案する。
さらに,編集の複雑さに基づいてソース音声の影響を動的に調整し,元の音声構造を可能な限り保存する。
実験により,本手法は,音声-視覚的アライメントとコンテンツ整合性を維持する既存の手法よりも優れていることが示された。
関連論文リスト
- AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。
編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。
より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-27T18:12:13Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。