論文の概要: MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
- arxiv url: http://arxiv.org/abs/2510.09065v1
- Date: Fri, 10 Oct 2025 07:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.925513
- Title: MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation
- Title(参考訳): MMAudioSep:ビデオとテキストによる音の分離に向けたビデオからオーディオへの生成モデル
- Authors: Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: MMAudioSepは,ビデオ/テキスト検索音声分離のための生成モデルである。
事前訓練された音声生成モデルを用いて学習した映像・テキストと音声の関係について知識を利用することで、より効率的にモデルを訓練することができる。
- 参考スコア(独自算出の注目度): 34.79792511587843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MMAudioSep, a generative model for video/text-queried sound separation that is founded on a pretrained video-to-audio model. By leveraging knowledge about the relationship between video/text and audio learned through a pretrained audio generative model, we can train the model more efficiently, i.e., the model does not need to be trained from scratch. We evaluate the performance of MMAudioSep by comparing it to existing separation models, including models based on both deterministic and generative approaches, and find it is superior to the baseline models. Furthermore, we demonstrate that even after acquiring functionality for sound separation via fine-tuning, the model retains the ability for original video-to-audio generation. This highlights the potential of foundational sound generation models to be adopted for sound-related downstream tasks. Our code is available at https://github.com/sony/mmaudiosep.
- Abstract(参考訳): 本稿では,MMAudioSepについて紹介する。MMAudioSepは,事前学習したビデオ・オーディオモデルに基づく,ビデオ・テキスト・クエリ・サウンド分離のための生成モデルである。
事前訓練された音声生成モデルを用いて学習した映像/テキストと音声の関係についての知識を活用することで、モデルをより効率的に訓練することができる。
我々は,MMAudioSepの性能を既存の分離モデルと比較し,決定論的および生成的アプローチの両方に基づくモデルを含む評価を行い,ベースラインモデルよりも優れていることを確認した。
さらに, 微調整による音源分離機能を獲得しても, オリジナル映像音声生成能力は保たれることを示した。
このことは、音響関連下流タスクに採用される基本音生成モデルの可能性を強調している。
私たちのコードはhttps://github.com/sony/mmaudiosep.comから入手可能です。
関連論文リスト
- ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - Investigating Modality Contribution in Audio LLMs for Music [8.118262908070152]
オーディオ大言語モデル(Audio LLMs)は、人間の音楽に関する会話を可能にする。
音声を本当に聴いているのか、それとも単にテキストによる推論を使っているのかは不明だ。
本稿では,モデル出力に対する各モダリティの寄与を定量化し,この問題を考察する。
論文 参考訳(メタデータ) (2025-09-25T00:56:35Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。