論文の概要: SoundReactor: Frame-level Online Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2510.02110v1
- Date: Thu, 02 Oct 2025 15:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.182292
- Title: SoundReactor: Frame-level Online Video-to-Audio Generation
- Title(参考訳): SoundReactor:フレームレベルのオンライン・ビデオ・ツー・オーディオ・ジェネレーション
- Authors: Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: Video-to-Audio生成モデルは、ビデオシーケンス全体やフレームのチャンクが事前に用意されていることを前提として、オフラインで動作する。
本稿では,フレームレベルのオンラインV2A生成の新たな課題を紹介する。
SoundReactorは、このタスク用に明示的に調整された、最初のシンプルで効果的なフレームワークである。
- 参考スコア(独自算出の注目度): 39.113214321291586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevailing Video-to-Audio (V2A) generation models operate offline, assuming an entire video sequence or chunks of frames are available beforehand. This critically limits their use in interactive applications such as live content creation and emerging generative world models. To address this gap, we introduce the novel task of frame-level online V2A generation, where a model autoregressively generates audio from video without access to future video frames. Furthermore, we propose SoundReactor, which, to the best of our knowledge, is the first simple yet effective framework explicitly tailored for this task. Our design enforces end-to-end causality and targets low per-frame latency with audio-visual synchronization. Our model's backbone is a decoder-only causal transformer over continuous audio latents. For vision conditioning, it leverages grid (patch) features extracted from the smallest variant of the DINOv2 vision encoder, which are aggregated into a single token per frame to maintain end-to-end causality and efficiency. The model is trained through a diffusion pre-training followed by consistency fine-tuning to accelerate the diffusion head decoding. On a benchmark of diverse gameplay videos from AAA titles, our model successfully generates semantically and temporally aligned, high-quality full-band stereo audio, validated by both objective and human evaluations. Furthermore, our model achieves low per-frame waveform-level latency (26.3ms with the head NFE=1, 31.5ms with NFE=4) on 30FPS, 480p videos using a single H100. Demo samples are available at https://koichi-saito-sony.github.io/soundreactor/.
- Abstract(参考訳): 一般的なV2A(Video-to-Audio)生成モデルは、ビデオシーケンス全体やフレームのチャンクが事前に用意されていることを前提として、オフラインで動作する。
これにより、ライブコンテンツ作成や新たな生成的世界モデルなど、インタラクティブなアプリケーションにおける使用が極めて制限される。
このギャップに対処するため、我々はフレームレベルのオンラインV2A生成という新しいタスクを導入し、モデルが将来のビデオフレームにアクセスすることなく、自動回帰的にビデオから音声を生成する。
さらに、私たちはSoundReactorを提案しています。これは私たちの知る限り、このタスク用に明示的に調整された、最初のシンプルで効果的なフレームワークです。
我々の設計では、エンドツーエンドの因果関係を強制し、オーディオ-視覚同期によるフレーム毎のレイテンシを低くする。
我々のモデルのバックボーンは、復号器のみの因果変換器であり、連続的なオーディオ潜伏器である。
ビジョンコンディショニングでは、DINOv2視覚エンコーダの最小変種から抽出されたグリッド(パッチ)機能を活用し、フレーム毎に単一のトークンに集約することで、エンドツーエンドの因果性と効率性を維持する。
モデルは拡散前訓練により訓練され、その後、拡散ヘッド復号を高速化するために、一貫性の微調整が行われる。
AAAタイトルの多様なゲームプレイビデオのベンチマークにおいて、我々のモデルは、客観的かつ時間的に整合した高品質なフルバンドステレオオーディオを生成し、客観的評価と人的評価の両方で検証した。
さらに,30FPSでフレーム単位の波形レベルの低レイテンシ(NFE=1で26.3ms,NFE=4で31.5ms,H100で480p)を実現する。
デモサンプルはhttps://koichi-saito-sony.github.io/soundreactor/で公開されている。
関連論文リスト
- StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - Progressive Autoregressive Video Diffusion Models [24.97019070991881]
本稿では,映像拡散モデルにおける雑音レベルの仮定を再考することにより,より自然な自己回帰長ビデオ生成法を提案する。
私たちのキーとなるアイデアは、フレームごとにフレームを割り当てることです。
プログレッシブノイズスケジュールを備えたビデオ拡散モデルでは,ベースラインに比べて忠実度が大幅に向上した長いビデオを自動回帰的に生成することができる。
論文 参考訳(メタデータ) (2024-10-10T17:36:15Z) - EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos [3.6078215038168473]
EgoSonicsは、サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり、同期されたオーディオトラックを生成する方法である。
サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
論文 参考訳(メタデータ) (2024-07-30T06:57:00Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。