論文の概要: Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
- arxiv url: http://arxiv.org/abs/2602.20981v2
- Date: Wed, 25 Feb 2026 02:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.579578
- Title: Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
- Title(参考訳): 時間とともにエコー:ビデオからオーディオ生成モデルにおける長さ一般化の鍵を開ける
- Authors: Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: マルチモーダル・ツー・オーディオ生成におけるスケーリングの課題に対処し、短いインスタンスでトレーニングされたモデルがテスト中により長いインスタンスに一般化できるかどうかを検討する。
提案手法は階層的手法と非因果的Mambaを統合し,長大な音声生成を支援する。
実験の結果,提案手法は,ビデオ・オーディオ・タスクの先行作業に勝る長大な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 42.75068463173552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
- Abstract(参考訳): ビデオとオーディオ間のマルチモーダルアライメントのスケーリングは、特に限られたデータとテキスト記述とフレームレベルのビデオ情報のミスマッチのため、難しい。
本研究では,マルチモーダル・ツー・オーディオ生成におけるスケーリングの課題に取り組み,ショート・インスタンスでトレーニングしたモデルがテスト中により長いモデルに一般化できるかどうかを検討する。
この課題に対処するため,マルチモーダル階層型ネットワークMMHNetを提案する。
提案手法は階層的手法と非因果的Mambaを統合し,長大な音声生成を支援する。
提案手法は,5分以上の長大な音声生成を著しく改善する。
また,長時間のトレーニングを伴わないビデオ・オーディオ生成タスクにおいて,短時間・長時間のトレーニングが可能であることも証明した。
実験の結果,提案手法は,ビデオ・オーディオ・タスクの先行作業に勝る長大な結果が得られることがわかった。
さらに,本モデルでは,5分間以上生成するのに対して,先行する音声合成手法では長寿命で生成が不十分であることを示す。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。