論文の概要: Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
- arxiv url: http://arxiv.org/abs/2510.21581v1
- Date: Fri, 24 Oct 2025 15:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.525015
- Title: Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
- Title(参考訳): Foley Control: 冷凍潜水式テキスト・ツー・オーディオモデルの動画化
- Authors: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans,
- Abstract要約: Foley Controlは、ビデオ誘導型のFoleyに対する軽量なアプローチである。
事前訓練された単一モダリティモデルを凍結させ、それらの間の小さなクロスアテンションブリッジのみを学習する。
私たちはVideo-to-Foleyにフォーカスしていますが、同じブリッジデザインは、他のオーディオモダリティにも拡張できます。
- 参考スコア(独自算出の注目度): 39.74394488889939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foley Control is a lightweight approach to video-guided Foley that keeps pretrained single-modality models frozen and learns only a small cross-attention bridge between them. We connect V-JEPA2 video embeddings to a frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact video cross-attention after the model's existing text cross-attention, so prompts set global semantics while video refines timing and local dynamics. The frozen backbones retain strong marginals (video; audio given text) and the bridge learns the audio-video dependency needed for synchronization -- without retraining the audio prior. To cut memory and stabilize training, we pool video tokens before conditioning. On curated video-audio benchmarks, Foley Control delivers competitive temporal and semantic alignment with far fewer trainable parameters than recent multi-modal systems, while preserving prompt-driven controllability and production-friendly modularity (swap/upgrade encoders or the T2A backbone without end-to-end retraining). Although we focus on Video-to-Foley, the same bridge design can potentially extend to other audio modalities (e.g., speech).
- Abstract(参考訳): Foley Controlは、ビデオ誘導のFoleyに対する軽量なアプローチで、訓練済みのシングルモダリティモデルを凍結させ、それらの間の小さなクロスアテンションブリッジだけを学習する。
我々は、V-JEPA2ビデオの埋め込みを、既存のテキストのクロスアテンションの後、コンパクトなビデオのクロスアテンションを挿入することで、凍結したStable Audio Open DiT text-to-audio(T2A)モデルに接続する。
凍結したバックボーンは、強い限界(ビデオ; 与えられた音声テキスト)を保持し、ブリッジは、同期に必要なオーディオとビデオの依存関係を -- 事前にオーディオをトレーニングすることなく - 学習する。
メモリを削減し、トレーニングを安定させるために、コンディショニングの前にビデオトークンをプールする。
キュレートされたビデオオーディオベンチマークでは、Foley Controlは、最近のマルチモーダルシステムよりもはるかに少ないトレーニング可能なパラメータで、競合する時間的および意味的なアライメントを提供すると同時に、プロンプト駆動の制御性とプロダクションフレンドリなモジュール性(スワップ/アップグレードエンコーダや、エンドツーエンドの再トレーニングなしのT2Aバックボーン)を保っている。
Video-to-Foleyにフォーカスするが、同じブリッジ設計は、他のオーディオモーダル(例えば音声)にも拡張できる可能性がある。
関連論文リスト
- MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。
我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。