論文の概要: Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper
- arxiv url: http://arxiv.org/abs/2509.04957v1
- Date: Fri, 05 Sep 2025 09:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.549551
- Title: Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper
- Title(参考訳): 複数のファンデーションモデルマッパーによる効率的なビデオ・音声生成
- Authors: Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang,
- Abstract要約: Video-to-Audio (V2A) の生成は、ビデオから条件生成モデルへの意味的特徴と時間的特徴の抽出に依存している。
我々はMultiple Foundation Model Mapper (MFM-Mapper)を紹介する。
MFM-Mapperは、デュアルビジュアルエンコーダの機能を融合することで、よりリッチなセマンティクスと時間情報の恩恵を受ける。
- 参考スコア(独自算出の注目度): 20.624772746245387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Video-to-Audio (V2A) generation relies on extracting semantic and temporal features from video to condition generative models. Training these models from scratch is resource intensive. Consequently, leveraging foundation models (FMs) has gained traction due to their cross-modal knowledge transfer and generalization capabilities. One prior work has explored fine-tuning a lightweight mapper network to connect a pre-trained visual encoder with a text-to-audio generation model for V2A. Inspired by this, we introduce the Multiple Foundation Model Mapper (MFM-Mapper). Compared to the previous mapper approach, MFM-Mapper benefits from richer semantic and temporal information by fusing features from dual visual encoders. Furthermore, by replacing a linear mapper with GPT-2, MFM-Mapper improves feature alignment, drawing parallels between cross-modal features mapping and autoregressive translation tasks. Our MFM-Mapper exhibits remarkable training efficiency. It achieves better performance in semantic and temporal consistency with fewer training consuming, requiring only 16\% of the training scale compared to previous mapper-based work, yet achieves competitive performance with models trained on a much larger scale.
- Abstract(参考訳): 最近のビデオ・ツー・オーディオ(V2A)生成は、ビデオから条件生成モデルへの意味的特徴と時間的特徴の抽出に依存している。
これらのモデルをゼロからトレーニングするのは、リソース集約的です。
その結果, ファンデーションモデル(FM)の活用は, クロスモーダルな知識伝達と一般化能力によって牽引されている。
1つの先行研究は、訓練済みのビジュアルエンコーダとV2Aのためのテキスト・ツー・オーディオ生成モデルとを接続する軽量マッパーネットワークの微調整について検討している。
そこで我々はMultiple Foundation Model Mapper (MFM-Mapper)を紹介した。
従来のマッパーアプローチと比較して、MFM-Mapperはデュアルビジュアルエンコーダの機能を融合することで、よりリッチなセマンティクスと時間情報の恩恵を受ける。
さらに、線形マッパーをGPT-2に置き換えることで、MFM-Mapperは機能アライメントを改善し、クロスモーダルな特徴マッピングと自動回帰翻訳タスクの並列性を描画する。
MFM-Mapperは優れたトレーニング効率を示します。
セマンティックと時間的整合性において、トレーニングの消費を減らし、従来のマッパーベースの作業に比べてトレーニングスケールの16倍しか必要とせず、はるかに大きなスケールでトレーニングされたモデルと競合するパフォーマンスを達成する。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by
Connecting Foundation Models [14.538853403226751]
基礎モデル(FM)の上に人工知能システムを構築することは、AI研究の新たなパラダイムになりつつある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
提案手法では,V2A-Mapperを高速に訓練し,高忠実で視覚的に整合した音を生成する。
論文 参考訳(メタデータ) (2023-08-18T04:49:38Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。