Fugu-MT 論文翻訳(概要): AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

論文の概要: AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

arxiv url: http://arxiv.org/abs/2603.15597v1
Date: Mon, 16 Mar 2026 17:53:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.715141
Title: AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
Title（参考訳）: AC-Foley:アコースティックトランスファーを用いた基準オーディオ誘導ビデオ・ツー・オーディオ合成
Authors: Pengjun Fang, Yingqing He, Yazhou Xing, Qifeng Chen, Ser-Nam Lim, Harry Yang,
Abstract要約: AC-Foley(AC-Foley)は、音響条件付きV2A(V2A)モデルである。本手法は, 音声信号を直接条件付けすることにより, テキスト記述の意味的曖昧さを回避し, 音響特性の正確な操作を可能にする。
参考スコア（独自算出の注目度）: 81.87973181435248
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing video-to-audio (V2A) generation methods predominantly rely on text prompts alongside visual information to synthesize audio. However, two critical bottlenecks persist: semantic granularity gaps in training data, such as conflating acoustically distinct sounds under coarse labels, and textual ambiguity in describing micro-acoustic features. These bottlenecks make it difficult to perform fine-grained sound synthesis using text-controlled modes. To address these limitations, we propose AC-Foley, an audio-conditioned V2A model that directly leverages reference audio to achieve precise and fine-grained control over generated sounds. This approach enables fine-grained sound synthesis, timbre transfer, zero-shot sound generation, and improved audio quality. By directly conditioning on audio signals, our approach bypasses the semantic ambiguities of text descriptions while enabling precise manipulation of acoustic attributes. Empirically, AC-Foley achieves state-of-the-art performance for Foley generation when conditioned on reference audio, while remaining competitive with state-of-the-art video-to-audio methods even without audio conditioning.
Abstract（参考訳）: 既存のV2A (Video-to-audio) 生成手法は、主に音声を合成するための視覚情報とともにテキストプロンプトに依存している。しかし、2つの重要なボトルネックは、粗いラベルの下で音響的に異なる音を融合させるような訓練データにおける意味的な粒度ギャップ、マイクロ音響特徴を記述する際のテキストの曖昧さである。これらのボトルネックは、テキスト制御モードを使用してきめ細かな音合成を行うのを困難にする。これらの制約に対処するために,提案するAC-Foleyは,参照音声を直接利用して生成した音の精密かつきめ細かな制御を実現する音響条件付きV2Aモデルである。このアプローチは、きめ細かい音合成、音色伝達、ゼロショット音生成、音質の向上を可能にする。本手法は, 音声信号を直接条件付けすることにより, テキスト記述の意味的曖昧さを回避し, 音響特性の正確な操作を可能にする。実証的には、AC-Foleyは、オーディオコンディショニングなしでも最先端のビデオオーディオ手法と競合しながら、参照オーディオで条件付けされたときに、フォリー生成の最先端のパフォーマンスを達成する。

関連論文リスト

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows [75.44753202066171]
ビデオ入力に基づくコーディネートオーディオ生成は、通常、厳格なオーディオ・ビジュアル・アライメント(AV)を必要とする。マスク付きモデリングトレーニングにより,まずFoleyFlowを用いて非モード型AVエンコーダのアライメントを行う。トレーニング後、単調データのみを用いて個別に事前訓練されたAVエンコーダは、意味的およびリズム的整合性に整合する。
論文参考訳（メタデータ） (2026-03-09T09:06:25Z)
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance [33.1393328136321]
生成プロセスの制御性を向上し,よりリアルな音声合成を実現するために,ステップバイステップのV2A生成手法を提案する。従来のフォーリーにインスパイアされた我々の手法は、ビデオによって誘発される全ての音声イベントを、欠落した音声イベントの漸進的な生成を通じてキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-06-26T04:20:08Z)
Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文参考訳（メタデータ） (2025-03-15T08:25:57Z)
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文参考訳（メタデータ） (2024-08-21T18:06:15Z)
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。 FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文参考訳（メタデータ） (2024-07-01T17:35:56Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。