論文の概要: DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos
- arxiv url: http://arxiv.org/abs/2503.22208v1
- Date: Fri, 28 Mar 2025 07:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:01.893877
- Title: DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos
- Title(参考訳): DeepSound-V1:ビデオからオーディオ生成のステップバイステップを考える
- Authors: Yunming Liang, Zihao Chen, Chaofan Ding, Xinhan Di,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。
対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。
実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
- 参考スコア(独自算出の注目度): 4.452513686760606
- License:
- Abstract: Currently, high-quality, synchronized audio is synthesized from video and optional text inputs using various multi-modal joint learning frameworks. However, the precise alignment between the visual and generated audio domains remains far from satisfactory. One key factor is the lack of sufficient temporal and semantic alignment annotations in open-source video-audio and text-audio benchmarks. Therefore, we propose a framework for audio generation from videos, leveraging the internal chain-of-thought (CoT) of a multi-modal large language model (MLLM) to enable step-by-step reasoning without requiring additional annotations. Additionally, a corresponding multi-modal reasoning dataset is constructed to facilitate the learning of initial reasoning in audio generation. In the experiments, we demonstrate the effectiveness of the proposed framework in reducing misalignment (voice-over) in generated audio and achieving competitive performance compared to various state-of-the-art models. The evaluation results show that the proposed method outperforms state-of-the-art approaches across multiple metrics. Specifically, the F DP aSST indicator is reduced by up to 10.07%, the F DP AN N s indicator by up to 11.62%, and the F DV GG indicator by up to 38.61%. Furthermore, the IS indicator improves by up to 4.95%, the IB-score indicator increases by up to 6.39%, and the DeSync indicator is reduced by up to 0.89%.
- Abstract(参考訳): 現在、高品質な同期音声は、ビデオおよびオプションテキスト入力から様々なマルチモーダル共同学習フレームワークを用いて合成されている。
しかし、視覚領域と生成領域の正確なアライメントは、まだ十分ではない。
重要な要素の1つは、オープンソースのビデオオーディオとテキストオーディオのベンチマークに十分な時間的および意味的なアライメントアノテーションがないことである。
そこで本稿では,マルチモーダル大言語モデル(MLLM)の内部チェーン(CoT)を利用して,追加アノテーションを必要とせずにステップバイステップの推論を可能にする,ビデオから音声を生成するフレームワークを提案する。
さらに、音声生成における初期推論の学習を容易にするために、対応するマルチモーダル推論データセットを構築する。
実験では,提案手法が生成した音声の誤り(音声)を低減し,各種の最先端モデルと比較して競争性能を向上する上で有効であることを示す。
評価結果から,提案手法は複数の指標にまたがる最先端手法よりも優れていた。
具体的には、F DP aSSTインジケータを最大10.07%、F DP AN N sインジケータを最大11.62%、F DV GGインジケータを最大38.61%削減する。
さらにIS指標は最大4.95%改善し、IBスコア指標は最大6.39%、DeSync指標は最大0.89%向上した。
関連論文リスト
- PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores [18.26082503192707]
PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアは,音声-視覚同期の質を評価する5点尺度を備えた新しい自動測定値である。
実験では、Fr'eche'tをベースとしたオーディオ・ビジュアル同期の自然な拡張に対して、相対的な50%のゲインを観測した。
論文 参考訳(メタデータ) (2024-04-10T20:32:24Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。