論文の概要: PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2511.18833v1
- Date: Mon, 24 Nov 2025 07:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.072742
- Title: PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
- Title(参考訳): PrismAudio:ビデオ・ツー・オーディオ生成のための分解型連鎖と多次元リワード
- Authors: Huadai Liu, Kaicheng Luo, Wen Wang, Qian Chen, Peiwen Sun, Rongjie Huang, Xiangang Li, Jieping Ye, Wei Xue,
- Abstract要約: Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
- 参考スコア(独自算出の注目度): 57.864929968616586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-to-Audio (V2A) generation requires balancing four critical perceptual dimensions: semantic consistency, audio-visual temporal synchrony, aesthetic quality, and spatial accuracy; yet existing methods suffer from objective entanglement that conflates competing goals in single loss functions and lack human preference alignment. We introduce PrismAudio, the first framework to integrate Reinforcement Learning into V2A generation with specialized Chain-of-Thought (CoT) planning. Our approach decomposes monolithic reasoning into four specialized CoT modules (Semantic, Temporal, Aesthetic, and Spatial CoT), each paired with targeted reward functions. This CoT-reward correspondence enables multidimensional RL optimization that guides the model to jointly generate better reasoning across all perspectives, solving the objective entanglement problem while preserving interpretability. To make this optimization computationally practical, we propose Fast-GRPO, which employs hybrid ODE-SDE sampling that dramatically reduces the training overhead compared to existing GRPO implementations. We also introduce AudioCanvas, a rigorous benchmark that is more distributionally balanced and covers more realistically diverse and challenging scenarios than existing datasets, with 300 single-event classes and 501 multi-event samples. Experimental results demonstrate that PrismAudio achieves state-of-the-art performance across all four perceptual dimensions on both the in-domain VGGSound test set and out-of-domain AudioCanvas benchmark. The project page is available at https://PrismAudio-Project.github.io.
- Abstract(参考訳): Video-to-Audio (V2A) の生成には、意味的一貫性、音声と視覚の時間的同期、美的品質、空間的精度の4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
提案手法は,モノリシック推論を4つの特別なCoTモジュール(Semantic, Temporal, Aesthetic, Space CoT)に分解し,それぞれに目的の報酬関数を組み込んだ。
このCoT逆対応により、多次元のRL最適化が可能となり、解釈可能性を維持しながら目的の絡み合う問題を解くことにより、モデルが全ての観点でより良い推論を共同で生成する。
この最適化を実用的なものにするために,既存のGRPO実装と比較してトレーニングオーバーヘッドを大幅に削減するハイブリッドODE-SDEサンプリングを用いたFast-GRPOを提案する。
私たちはまた、AudioCanvasという厳格なベンチマークも導入しています。AudioCanvasは分散バランスが良く、既存のデータセットよりも現実的に多様で困難なシナリオをカバーしています。
実験結果から,PrismAudioは,ドメイン内VGGSoundテストセットとドメイン外AudioCanvasベンチマークの両方において,4つの知覚次元すべてにわたる最先端性能を実現していることがわかった。
プロジェクトページはhttps://PrismAudio-Project.github.ioで公開されている。
関連論文リスト
- AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch [0.3728263002609659]
本稿では,AMAuT(Augmentation-driven Multiview Audio Transformer)を紹介する。
AMAuTは任意のサンプルレートとオーディオ長をサポートしながら、事前訓練された重量への依存を取り除く。
AudioMNIST、SpeechCommands V1 & V2、VocalSound、CochlSceneの5つの公開ベンチマークの実験では、AMAuTが99.8%のアキュラシーを達成したことが示されている。
論文 参考訳(メタデータ) (2025-10-22T08:41:59Z) - MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization [10.717164013707693]
現在のV2A(V2A)手法は、複雑なマルチイベントシナリオで苦労している。
本稿では,新しいV2AフレームワークであるMultiSoundGenを提案する。
直接優先最適化(DPO)をV2Aドメインに導入する。
論文 参考訳(メタデータ) (2025-09-24T11:04:34Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。