論文の概要: MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video
- arxiv url: http://arxiv.org/abs/2605.00495v1
- Date: Fri, 01 May 2026 08:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.902431
- Title: MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video
- Title(参考訳): MMAudio-LABEL:サイレントビデオのためのオーディオ生成によるオーディオイベントラベリング
- Authors: Kazuya Tateishi, Akira Takahashi, Atsuo Hiroe, Hirofumi Takeda, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: MMAudio-LABELは、基本的なオーディオ生成モデルに基づいて構築されたイベント対応オーディオ生成フレームワークである。
提案手法は,最大ヒッツデータセットを用いて,セット検出と17クラスの材料分類を行う。
その結果,共同学習による音声生成とイベント予測により,より解釈可能で実用的な音声合成が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 28.779831823146313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal generation have enabled high-quality audio generation from silent videos. Practical applications, such as sound production, demand not only the generated audio but also explicit sound event labels detailing the type and timing of sounds. One straightforward approach involves applying a standard sound event detection to the generated audio. However, this post-hoc pipeline is inherently limited, as it is prone to error accumulation. To address this limitation, we propose MMAudio-LABEL (LAtent-Based Event Labeling), an event-aware audio generation framework built on a foundational audio generation model as its backbone that jointly generates audio and frame-aligned sound event predictions from silent videos. We evaluate our method on the Greatest Hits dataset for onset detection and 17-class material classification. Our approach improves onset-detection accuracy from 46.7% to 75.0% and material-classification accuracy from 40.6% to 61.0% over baselines. These results suggest that jointly learning audio generation and event prediction enables a more interpretable and practical video-to-audio synthesis.
- Abstract(参考訳): 近年のマルチモーダル生成はサイレントビデオから高品質なオーディオ生成を可能にしている。
音声生成のような実践的な応用は、生成された音声だけでなく、音の種類とタイミングを詳述した明示的な音声イベントラベルも要求する。
1つの簡単なアプローチは、生成したオーディオに標準音イベント検出を適用することである。
しかし、このポストホックパイプラインは本質的に制限されている。
この制限に対処するために,基礎的な音声生成モデルに基づくイベント認識音声生成フレームワークであるMMAudio-LABEL (Latent-Based Event Labeling) を,サイレントビデオから音声およびフレーム整列音声イベント予測を共同で生成するバックボーンとして提案する。
提案手法は,最大ヒッツデータセットを用いて,セット検出と17クラスの材料分類を行う。
提案手法は, オンセット検出精度を46.7%から75.0%に改善し, 材料分類精度を40.6%から61.0%に改善する。
これらの結果は,共同学習による音声生成とイベント予測により,より解釈可能で実用的な音声合成が可能になることを示唆している。
関連論文リスト
- DreamAudio: Customized Text-to-Audio Generation with Diffusion Models [38.963121219471354]
我々はDreamAudio for customd text-to-audio generation (CTTA)を提案する。
本稿では,ユーザが提供する音声生成のための参照概念から,モデルが聴覚情報を識別できるようにするための新しいフレームワークを提案する。
パーソナライズされた音声イベントを含む参照音声サンプルがいくつかあるので,本システムはこれらのイベントを含む新しいオーディオサンプルを生成することができる。
論文 参考訳(メタデータ) (2025-09-07T12:06:21Z) - Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。