Fugu-MT 論文翻訳(概要): SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos

論文の概要: SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos

arxiv url: http://arxiv.org/abs/2510.02916v1
Date: Fri, 03 Oct 2025 11:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 16:35:52.368405
Title: SALSA-V: Shortcut-Augmented Long-form Synchronized Audio from Videos
Title（参考訳）: SALSA-V:ショートカット強化ロングフォーム同期オーディオ
Authors: Amir Dellali, Luca A. Lanzendörfer, Florian Grötschla, Roger Wattenhofer,
Abstract要約: SALSA-Vは,サイレントビデオコンテンツから高同期・高忠実長音声を合成できるマルチモーダルビデオ・オーディオ生成モデルである。提案手法では,非拘束長音声系列の音声条件生成とシームレスな合成を可能にする。 SALSA-Vは,映像コンテンツと音声の協調・同期の両面で,定量的評価と人間の聴取研究において,既存の最先端手法を著しく上回っていることを示す。
参考スコア（独自算出の注目度）: 38.40457780873775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose SALSA-V, a multimodal video-to-audio generation model capable of synthesizing highly synchronized, high-fidelity long-form audio from silent video content. Our approach introduces a masked diffusion objective, enabling audio-conditioned generation and the seamless synthesis of audio sequences of unconstrained length. Additionally, by integrating a shortcut loss into our training process, we achieve rapid generation of high-quality audio samples in as few as eight sampling steps, paving the way for near-real-time applications without requiring dedicated fine-tuning or retraining. We demonstrate that SALSA-V significantly outperforms existing state-of-the-art methods in both audiovisual alignment and synchronization with video content in quantitative evaluation and a human listening study. Furthermore, our use of random masking during training enables our model to match spectral characteristics of reference audio samples, broadening its applicability to professional audio synthesis tasks such as Foley generation and sound design.
Abstract（参考訳）: SALSA-Vは,サイレントビデオコンテンツから高同期・高忠実長音声を合成できるマルチモーダルビデオ・オーディオ生成モデルである。提案手法では,非拘束長音声系列の音声条件生成とシームレスな合成を可能にする。さらに、トレーニングプロセスにショートカットロスを組み込むことで、最大8ステップのサンプリングステップで高品質なオーディオサンプルを迅速に生成し、微調整や再トレーニングを必要とせず、準リアルタイムアプリケーションへの道を開いた。 SALSA-Vは,映像コンテンツと音声の協調・同期を定量的に評価し,人間の聴取研究において,既存の最先端手法よりも優れていることを示す。さらに、トレーニング中にランダムマスキングを用いることで、基準音声サンプルのスペクトル特性と一致し、フォーリー生成や音響設計といったプロの音声合成タスクへの適用性を高めることができる。

関連論文リスト

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文参考訳（メタデータ） (2025-08-01T16:03:57Z)
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文参考訳（メタデータ） (2025-06-24T16:39:39Z)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。 MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。 MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文参考訳（メタデータ） (2024-12-19T18:59:55Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文参考訳（メタデータ） (2021-07-20T04:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。