論文の概要: Inference-Time Scaling for Joint Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2606.03183v1
- Date: Tue, 02 Jun 2026 05:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.783383
- Title: Inference-Time Scaling for Joint Audio-Video Generation
- Title(参考訳): 共同オーディオ映像生成のための推論時間スケーリング
- Authors: Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung,
- Abstract要約: ジョイントオーディオビデオ生成モデルは、忠実性を改善するためにかなりのトレーニングリソースを必要とすることが多い。
推論時間スケーリングは、単一のモダリティドメインにおいて、有望なトレーニング不要の代替手段である。
共同音声・ビデオ生成のためのITSの総合的研究について紹介する。
- 参考スコア(独自算出の注目度): 38.09471807128537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint audio-video generation aims to synthesize realistic audio-video pairs that are both semantically aligned with text prompts and precisely synchronized. While existing joint audio-video generation models often require substantial training resources to improve fidelity, Inference-Time Scaling (ITS) has recently emerged as a promising training-free alternative in single-modality domains. However, extending ITS from a single modality to multimodal domains is non-trivial, as it requires balancing multiple heterogeneous objectives. In this paper, we present the first comprehensive study of ITS for joint audio-video generation. We first demonstrate that a multi-verifier framework is essential to address the limitations of single-objective guidance, including asymmetric performance trade-offs and verifier hacking. Through systematic analysis, we then identify an optimal multi-verifier combination that yields balanced improvements across all quality dimensions. Finally, to effectively aggregate diverse reward signals, we propose Adaptive Reward Weighting (ARW), a novel test-time optimization algorithm. ARW treats reward aggregation as an online optimization problem, utilizing learnable parameters to calibrate reward variances without requiring prior knowledge of reward distributions, thereby ensuring robust multi-objective selection. Experimental results on VGGSound and JavisBench-mini benchmarks demonstrate that our framework significantly enhances semantic alignment, perceptual quality, and audio-visual synchronization of generated outputs. Synthesized samples and code are available on the project page: https://jung-jaemin.github.io/ITS-AVGen-Proj.
- Abstract(参考訳): 共同音声-ビデオ生成は、テキストプロンプトにセマンティックに整合し、正確に同期されたリアルなオーディオ-ビデオペアを合成することを目的としている。
既存のジョイントオーディオビデオ生成モデルは、忠実性を改善するためにかなりのトレーニングリソースを必要とすることが多いが、Inference-Time Scaling(ITS)は、最近、単一のモダリティドメインにおいて有望なトレーニングなしの代替手段として登場した。
しかし、単一のモダリティからマルチモーダル領域へのITSの拡張は、複数の異種目的のバランスを必要とするため、非自明ではない。
本稿では,共同音声・ビデオ生成のためのITSの総合的研究について紹介する。
我々はまず,非対称な性能トレードオフや検証者ハッキングを含む単一目的誘導の限界に対処するために,マルチ検証フレームワークが不可欠であることを実証した。
体系的な分析により、全ての品質次元でバランスのとれた改善をもたらす最適な多変量器の組み合わせを同定する。
最後に、多様な報酬信号を効果的に集約するために、新しいテスト時間最適化アルゴリズムであるAdaptive Reward Weighting (ARW)を提案する。
ARWは、報酬集約をオンライン最適化問題として扱い、学習可能なパラメータを利用して報酬分布の事前知識を必要とせずに報酬分散を校正し、堅牢な多目的選択を保証する。
VGGSound と JavisBench-mini ベンチマークによる実験結果から,本フレームワークは生成した出力のセマンティックアライメント,知覚的品質,音声・視覚的同期を著しく向上することが示された。
合成サンプルとコードはプロジェクトのページで公開されている。
関連論文リスト
- JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation [57.864929968616586]
Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
論文 参考訳(メタデータ) (2025-11-24T07:11:12Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
我々のモデルは、英語で約2.5%の競争力のある単語誤り率(WER)を達成し、スペイン語で既存のアプローチを上回ります。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。