論文の概要: Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
- arxiv url: http://arxiv.org/abs/2506.20995v3
- Date: Tue, 07 Oct 2025 06:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:20.874159
- Title: Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance
- Title(参考訳): 負のオーディオ誘導によるステップバイステップ・ビデオ・トゥ・オーディオ合成
- Authors: Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: 生成プロセスの制御性を向上し,よりリアルな音声合成を実現するために,ステップバイステップのV2A生成手法を提案する。
従来のフォーリーにインスパイアされた我々の手法は、ビデオによって誘発される全ての音声イベントを、欠落した音声イベントの漸進的な生成を通じてキャプチャすることを目的としている。
- 参考スコア(独自算出の注目度): 33.1393328136321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a step-by-step video-to-audio (V2A) generation method for finer controllability over the generation process and more realistic audio synthesis. Inspired by traditional Foley workflows, our approach aims to comprehensively capture all sound events induced by a video through the incremental generation of missing sound events. To avoid the need for costly multi-reference video-audio datasets, each generation step is formulated as a negatively guided V2A process that discourages duplication of existing sounds. The guidance model is trained by finetuning a pre-trained V2A model on audio pairs from adjacent segments of the same video, allowing training with standard single-reference audiovisual datasets that are easily accessible. Objective and subjective evaluations demonstrate that our method enhances the separability of generated sounds at each step and improves the overall quality of the final composite audio, outperforming existing baselines.
- Abstract(参考訳): 生成プロセスの制御性を向上し,よりリアルな音声合成を実現するために,ステップバイステップのV2A生成手法を提案する。
従来のFoleyワークフローにインスパイアされた本手法は,ビデオによって誘発されるすべての音声イベントを,欠落した音声イベントの漸進的生成を通じて包括的にキャプチャすることを目的としている。
コストのかかるマルチ参照ビデオオーディオデータセットの必要性を回避するため、各生成ステップは、既存の音の重複を回避した負のガイド付きV2Aプロセスとして定式化される。
ガイダンスモデルは、同じビデオの隣接セグメントから、事前訓練されたV2Aモデルのオーディオペアを微調整することで訓練される。
目的的,主観的な評価は,本手法が各ステップにおける生成音の分離性を向上し,最終合成音声の全体的な品質を向上し,既存のベースラインを上回ることを示す。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
textbfThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。