Fugu-MT 論文翻訳(概要): Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?

論文の概要: Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?

arxiv url: http://arxiv.org/abs/2409.09221v1
Date: Fri, 13 Sep 2024 22:18:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 21:49:17.249743
Title: Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?
Title（参考訳）: マルチモーダル音声変換器デコーダ
Authors: Yiwen Guan, Viet Anh Trinh, Vivek Voleti, Jacob Whitehill,
Abstract要約: 合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 12.662031101992968
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoder-only discrete-token language models have recently achieved significant success in automatic speech recognition. However, systematic analyses of how different modalities impact performance in specific scenarios remain limited. In this paper, we investigate the effects of multiple modalities on recognition accuracy on both synthetic and real-world datasets. Our experiments suggest that: (1) Integrating more modalities can increase accuracy; in particular, our paper is, to our best knowledge, the first to show the benefit of combining audio, image context, and lip information; (2) Images as a supplementary modality for speech recognition provide the greatest benefit at moderate noise levels, moreover, they exhibit a different trend compared to inherently synchronized modalities like lip movements; (3) Performance improves on both synthetic and real-world datasets when the most relevant visual information is filtered as a preprocessing step.
Abstract（参考訳）: 近年,デコーダのみの離散言語モデルが音声認識において大きな成功を収めている。しかし、特定のシナリオにおける異なるモダリティがパフォーマンスに与える影響の体系的な分析は依然として限られている。本稿では,合成データセットと実世界のデータセットの認識精度に及ぼす多重モードの影響について検討する。実験により,(1)より高次モダリティの統合は精度を高めることが示唆された。特に,本論文は,音声,画像コンテキスト,唇情報の組み合わせによるメリットを最初に示すものである。(2)音声認識の補助モダリティとしてのイメージは,中程度の雑音レベルにおいて最大の利益をもたらすが,さらに,唇運動のような固有に同期されたモダリティと異なる傾向を示す。(3)最も関連性の高い視覚情報を前処理ステップとしてフィルタリングする際の,合成データセットと実世界のデータセットの性能向上。

関連論文リスト

MLLM-based Speech Recognition: When and How is Multimodality Beneficial? [12.662031101992968]
マルチモーダル大言語モデル(MLLM)は、音声、テキスト、画像、その他のモダリティの統一モデリングのための新たな可能性を開いた。本稿では,複数の入力モードが雑音環境下で自動音声認識(ASR)の精度を向上させる条件とモデルアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-07-25T07:46:40Z)
WDMIR: Wavelet-Driven Multimodal Intent Recognition [11.292250176088276]
本稿では,ウェーブレット駆動型マルチモーダルインテント認識フレームワークを提案する。非言語情報の周波数領域解析を通じて意図理解を強化する。提案手法は,従来の手法を1.13%の精度で上回り,最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-27T03:32:45Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文参考訳（メタデータ） (2024-12-26T00:26:45Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-14T15:50:13Z)
Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文参考訳（メタデータ） (2022-07-04T04:53:39Z)
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文参考訳（メタデータ） (2022-06-26T03:00:02Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)
Self-attention fusion for audiovisual emotion recognition with incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文参考訳（メタデータ） (2022-01-26T18:04:29Z)
Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文参考訳（メタデータ） (2022-01-17T07:57:24Z)
Using growth transform dynamical systems for spatio-temporal data sonification [9.721342507747158]
有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
論文参考訳（メタデータ） (2021-08-21T16:25:59Z)
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。 mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文参考訳（メタデータ） (2021-02-25T03:40:43Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。