Fugu-MT 論文翻訳(概要): Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks

論文の概要: Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks

arxiv url: http://arxiv.org/abs/2309.07765v1
Date: Thu, 14 Sep 2023 14:51:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 12:45:24.378388
Title: Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks
Title（参考訳）: Echotune: ASRタスクにおける可変長音声特性を活用したモジュラー・エクストラクタ
Authors: Sizhou Chen, Songyang Gao, Sen Fang
Abstract要約: 可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
参考スコア（独自算出の注目度）: 4.64484562900918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Transformer architecture has proven to be highly effective for Automatic Speech Recognition (ASR) tasks, becoming a foundational component for a plethora of research in the domain. Historically, many approaches have leaned on fixed-length attention windows, which becomes problematic for varied speech samples in duration and complexity, leading to data over-smoothing and neglect of essential long-term connectivity. Addressing this limitation, we introduce Echo-MSA, a nimble module equipped with a variable-length attention mechanism that accommodates a range of speech sample complexities and durations. This module offers the flexibility to extract speech features across various granularities, spanning from frames and phonemes to words and discourse. The proposed design captures the variable length feature of speech and addresses the limitations of fixed-length attention. Our evaluation leverages a parallel attention architecture complemented by a dynamic gating mechanism that amalgamates traditional attention with the Echo-MSA module output. Empirical evidence from our study reveals that integrating Echo-MSA into the primary model's training regime significantly enhances the word error rate (WER) performance, all while preserving the intrinsic stability of the original model.
Abstract（参考訳）: Transformerアーキテクチャは、ASR(Automatic Speech Recognition)タスクに非常に効果的であることが証明され、ドメイン内の多くの研究の基盤となる。歴史的に、多くのアプローチは固定長の注意窓に依存しており、これは様々な音声サンプルの持続時間と複雑さの問題となり、データの過度な平滑化と重要な長期接続の無視につながる。この制限に対処するため、様々な音声サンプルの複雑さと持続時間に対応する可変長アテンション機構を備えたニブルモジュールであるEcho-MSAを導入する。このモジュールは、フレームや音素から単語や談話まで、様々な粒度の音声特徴を抽出する柔軟性を提供する。提案設計では,音声の可変長の特徴を捉え,固定長注意の限界に対処する。本評価では,Echo-MSAモジュール出力と従来の注目を一致させる動的ゲーティング機構を補完する並列アテンションアーキテクチャを利用する。本研究から得られた実証的証拠は,Echo-MSAを初等モデルのトレーニングシステムに組み込むことで,原モデルの本質的な安定性を維持しつつ,単語誤り率(WER)が著しく向上することを明らかにする。

関連論文リスト

MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free [27.346096262060787]
音響情報の分離を目的とした疎混合(MoE)アーキテクチャであるtextittextbfMoE-Adapter を導入する。実験により、MoE-Adapterは、音声意味的タスクとパラ言語的タスクの両方において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2026-01-06T12:24:38Z)
FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。 FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文参考訳（メタデータ） (2025-11-26T08:36:33Z)
Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。 FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T12:33:48Z)
HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文参考訳（メタデータ） (2025-09-23T02:53:38Z)
Dynamic Fusion Multimodal Network for SpeechWellness Detection [7.169178956727836]
自殺は青年期の死因の1つである。これまでの自殺リスク予測研究は、主に単独でテキスト情報と音響情報の両方に焦点を当ててきた。音声検出のための動的融合機構に基づく軽量マルチブランチマルチモーダルシステムについて検討する。
論文参考訳（メタデータ） (2025-08-25T14:18:12Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文参考訳（メタデータ） (2025-04-25T05:57:22Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement [7.789114492151524]
異種空間特徴を統合し,二次元アテンション機構を組み込んだ新しい音声強調フレームワークHFSDAを提案する。提案モデルは,高レベルな意味情報と詳細なスペクトルデータの両方を抽出し,より詳細な分析と音声信号の改良を可能にする。我々は、時間次元だけでなくスペクトル領域にわたって特徴抽出能力を高めることで、コンフォーマーモデルを洗練する。
論文参考訳（メタデータ） (2024-08-13T14:04:24Z)
IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues [10.280113107290067]
IM-RAGアプローチは、多ラウンドRAGをサポートするために、情報検索システムとLarge Language Models (LLM)を統合する。 IMプロセス全体が強化学習(Reinforcement Learning, RL)によって最適化され、プログレストラッカーが組み込まれ、中間段階の報酬が提供される。提案手法は, 赤外線モジュールの統合において高い柔軟性を提供しながら, 最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-05-15T12:41:20Z)
HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech [42.688549469089985]
我々は,アルツハイマー病検出のための長期スピーチをよりよく扱うために,階層型注意・自由変換器(HAFFormer)という新しい枠組みを構築した。具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)のアテンションフリーモジュールを用いて,自己アテンションを置き換え,コストのかかる計算を回避する。 ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できる。
論文参考訳（メタデータ） (2024-05-07T02:19:16Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文参考訳（メタデータ） (2022-11-22T23:38:10Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文参考訳（メタデータ） (2021-01-11T02:57:25Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。