論文の概要: LD-LAudio-V1: Video-to-Long-Form-Audio Generation Extension with Dual Lightweight Adapters
- arxiv url: http://arxiv.org/abs/2508.11074v1
- Date: Thu, 14 Aug 2025 21:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.675352
- Title: LD-LAudio-V1: Video-to-Long-Form-Audio Generation Extension with Dual Lightweight Adapters
- Title(参考訳): LD-LAudio-V1:デュアル軽量アダプタを用いたビデオ-Long-Form-Audio生成拡張
- Authors: Haomin Zhang, Kristin Qi, Shuxin Yang, Zihao Chen, Chaofan Ding, Xinhan Di,
- Abstract要約: LD-LAudio-V1は、最先端のビデオオーディオモデルの拡張である。
デュアル・ライトウェイトなアダプタを内蔵し、長めのオーディオ生成を可能にする。
クリーンで人間による注釈付きビデオ音声データセットをリリースする。
- 参考スコア(独自算出の注目度): 5.645576552929248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality and temporally synchronized audio from video content is essential for video editing and post-production tasks, enabling the creation of semantically aligned audio for silent videos. However, most existing approaches focus on short-form audio generation for video segments under 10 seconds or rely on noisy datasets for long-form video-to-audio zsynthesis. To address these limitations, we introduce LD-LAudio-V1, an extension of state-of-the-art video-to-audio models and it incorporates dual lightweight adapters to enable long-form audio generation. In addition, we release a clean and human-annotated video-to-audio dataset that contains pure sound effects without noise or artifacts. Our method significantly reduces splicing artifacts and temporal inconsistencies while maintaining computational efficiency. Compared to direct fine-tuning with short training videos, LD-LAudio-V1 achieves significant improvements across multiple metrics: $FD_{\text{passt}}$ 450.00 $\rightarrow$ 327.29 (+27.27%), $FD_{\text{panns}}$ 34.88 $\rightarrow$ 22.68 (+34.98%), $FD_{\text{vgg}}$ 3.75 $\rightarrow$ 1.28 (+65.87%), $KL_{\text{panns}}$ 2.49 $\rightarrow$ 2.07 (+16.87%), $KL_{\text{passt}}$ 1.78 $\rightarrow$ 1.53 (+14.04%), $IS_{\text{panns}}$ 4.17 $\rightarrow$ 4.30 (+3.12%), $IB_{\text{score}}$ 0.25 $\rightarrow$ 0.28 (+12.00%), $Energy\Delta10\text{ms}$ 0.3013 $\rightarrow$ 0.1349 (+55.23%), $Energy\Delta10\text{ms(vs.GT)}$ 0.0531 $\rightarrow$ 0.0288 (+45.76%), and $Sem.\,Rel.$ 2.73 $\rightarrow$ 3.28 (+20.15%). Our dataset aims to facilitate further research in long-form video-to-audio generation and is available at https://github.com/deepreasonings/long-form-video2audio.
- Abstract(参考訳): ビデオコンテンツから高品質で時間的に同期されたオーディオを生成することは、ビデオ編集やポストプロダクションタスクに不可欠であり、サイレントビデオのための意味的に整合したオーディオを作成することができる。
しかし、既存のほとんどのアプローチは、10秒以下のビデオセグメントのショートフォーム音声生成や、長めのビデオ音声合成のためのノイズの多いデータセットに依存している。
これらの制約に対処するため、LD-LAudio-V1は最先端のビデオオーディオモデルの拡張であり、ロングフォームオーディオ生成を可能にするためにデュアル軽量アダプタを内蔵している。
さらに,ノイズやアーティファクトを伴わない純粋な音響効果を含むクリーンで人手による音声合成データセットをリリースする。
本手法は, 計算効率を維持しながら, スプライシングアーティファクトと時間的不整合を著しく低減する。
FD_{\text{passt}}$ 450.00 $\rightarrow$ 327.29 (+27.27%), $FD_{\text{panns}}$ 34.88 $\rightarrow$ 22.68 (+34.98%), $FD_{\text{vgg}}$ 3.75 $\rightarrow$ 1.28 (+65.87%), $KL_{\text{panns}}$ 2.49 $\rightarrow$ 2.07 (+16.87%), $KL_{\text{passt}}$ 1.78 $\rightarrow$ 1.53 (+14.04%), $IS_{\text{panns$ 4.17$ 4.30 (+30.27%), $FD_{\text{panns}}$ 0.30 (+34.98%), $FD_{\text{vgg}}$ 3.75 $\rightarrow$ 1.28 (+65.87%), $KL_{\text{panns}}$ 0.30$ 0.1 (0.0%), $KL_{\text{pans}}$ 0.3 (0.0%), $KL_{\text$ 0.53 (0.07%), $0.0.0 0.05$ 0.05ドル, 0.30ドル(0.05ドル)。
と。
2.73$\rightarrow$ 3.28 (+20.15%)。
我々のデータセットは、長大なビデオオーディオ生成のさらなる研究を促進することを目的としており、https://github.com/deepreasonings/long-form-video2audioで利用可能である。
関連論文リスト
- OmniAudio: Generating Spatial Audio from 360-Degree Video [91.56286471271513]
我々は,360度ビデオから空間音声を生成する新しいタスクである360V2SAを導入する。
本稿では,空間音声データと大規模非空間データの両方を用いて,自己教師付き事前学習を利用する新しいフレームワークOmniAudioを提案する。
実験により、OmniAudioは客観的指標と主観的指標の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-21T07:21:28Z) - Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。
ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。
既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文 参考訳(メタデータ) (2025-04-02T18:47:09Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors [46.49463091678284]
適切なオーディオと画像のセットで8ドル8セントのビデオを処理すれば、フル長の256ドル256ドルのビデオが手に入る。
この新しいオーディオ・ビジュアル・アップサンプリングネットワークを使って、超低解像度の入力を32倍のスケールで実現しました。
論文 参考訳(メタデータ) (2022-08-17T07:19:40Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。