論文の概要: Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
- arxiv url: http://arxiv.org/abs/2506.20995v1
- Date: Thu, 26 Jun 2025 04:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.975244
- Title: Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
- Title(参考訳): 負のオーディオ誘導によるステップバイステップ・ビデオ・トゥ・オーディオ合成
- Authors: Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: 本稿では,個々の音声トラックを逐次生成するステップバイステップの音声合成手法を提案する。
提案手法は従来のフォーリーを反映し,映像によって引き起こされる全ての音を包括的に捉えることを目的としている。
- 参考スコア(独自算出の注目度): 15.29891397291197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel step-by-step video-to-audio generation method that sequentially produces individual audio tracks, each corresponding to a specific sound event in the video. Our approach mirrors traditional Foley workflows, aiming to capture all sound events induced by a given video comprehensively. Each generation step is formulated as a guided video-to-audio synthesis task, conditioned on a target text prompt and previously generated audio tracks. This design is inspired by the idea of concept negation from prior compositional generation frameworks. To enable this guided generation, we introduce a training framework that leverages pre-trained video-to-audio models and eliminates the need for specialized paired datasets, allowing training on more accessible data. Experimental results demonstrate that our method generates multiple semantically distinct audio tracks for a single input video, leading to higher-quality composite audio synthesis than existing baselines.
- Abstract(参考訳): 本稿では,ビデオ中の特定の音声イベントに対応する個々の音声トラックを逐次生成する,ステップバイステップの音声合成手法を提案する。
提案手法は従来のFoleyワークフローを反映し,映像によって引き起こされるすべての音声イベントを包括的に捉えることを目的としている。
各生成ステップは、対象のテキストプロンプトと以前に生成されたオーディオトラックに条件付けされたガイド付きビデオ音声合成タスクとして定式化される。
この設計は、以前の構成生成フレームワークからの概念否定の概念にインスパイアされている。
このガイド付き生成を実現するために,事前学習されたビデオ・オーディオモデルを活用するトレーニングフレームワークを導入し,特殊なペアデータセットの必要性を排除し,よりアクセスしやすいデータのトレーニングを可能にする。
実験により,本手法は単一入力ビデオに対して複数の意味的に異なる音声トラックを生成することが示され,既存のベースラインよりも高品質な合成音声合成が実現された。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
textbfThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。