Fugu-MT 論文翻訳(概要): SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding

論文の概要: SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding

arxiv url: http://arxiv.org/abs/2307.07421v2
Date: Wed, 17 Jan 2024 16:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 21:16:42.145838
Title: SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding
Title（参考訳）: SummaryMixing: 音声認識と理解のための自己認識に代わる線形複雑度
Authors: Titouan Parcollet and Rogier van Dalen and Shucong Zhang and Sourav Bhattacharya
Abstract要約: 本稿では,ASRに対する自己注意の新たな線形時間代替法を提案する。すべての時間ステップの平均オーバーベクターとの発話を要約する。この単一の要約は、時間固有の情報と結合される。
参考スコア（独自算出の注目度）: 18.964617422777437
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Modern speech processing systems rely on self-attention. Unfortunately, token mixing with self-attention takes quadratic time in the length of the speech utterance, slowing down inference as well as training and increasing memory consumption. Cheaper alternatives to self-attention for ASR have been developed, but they fail to consistently reach the same level of accuracy. This paper, therefore, proposes a novel linear-time alternative to self-attention. It summarises an utterance with the mean over vectors for all time steps. This single summary is then combined with time-specific information. We call this method "SummaryMixing". Introducing SummaryMixing in state-of-the-art ASR models makes it feasible to preserve or exceed previous speech recognition performance while lowering the training and inference times by up to 28$\%$ and reducing the memory budget by a factor of two. The benefits of SummaryMixing can also be generalized to other speech-processing tasks, such as speech understanding.
Abstract（参考訳）: 現代の音声処理システムは自己注意に依存している。残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論が遅くなり、トレーニングが遅くなり、メモリ消費が増加する。 ASRの自己注意に代わる安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。そこで本稿では,自己注意に代わる新しい線形時間法を提案する。これは全ての時間ステップに対して平均オーバーベクターと発話を要約する。この単一の要約は、時間固有の情報と組み合わせられる。この手法を "summarymixing" と呼ぶ。現状のASRモデルにおけるScriseMixingの導入により、トレーニングと推論時間を最大28$\%まで下げ、メモリ予算を2倍に削減しながら、従来の音声認識性能を維持または超えることが可能となる。要約ミキシングの利点は、音声理解などの他の音声処理タスクにも一般化することができる。

関連論文リスト

Polynomial Mixing for Efficient Self-supervised Speech Encoders [50.58463928808225]
Polynomial Mixer (PoM) はマルチヘッド自己注意の代替品である。 PoMは下流音声認識タスクでその性能を達成する。
論文参考訳（メタデータ） (2026-02-28T14:45:55Z)
Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Supervised Learning Models for Low-resource Speech Recognition [10.177623104133023]
Windowed SummaryMixing (WSM)を導入し、SlideMixing (SM)を強化した。 WSMは、グローバルな要約と共にローカルな近隣の要約を統合し、時間的依存関係を改善しながら効率を維持します。提案手法は,SSLモデルのピークVRAM使用率を40%削減しつつ,ASR性能を向上する。
論文参考訳（メタデータ） (2026-02-04T06:01:30Z)
Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文参考訳（メタデータ） (2025-08-18T11:32:13Z)
Enhancing Speech Emotion Recognition Leveraging Aligning Timestamps of ASR Transcripts and Speaker Diarization [4.1088673993841685]
本稿では,自動音声認識(ASR)と話者ダイアリゼーション(SD)出力のタイムスタンプに基づくアライメントが音声感情認識(SER)精度に与える影響について検討する。本研究では,事前学習されたASRと話者ダイアリゼーションモデルを利用したアライメントパイプラインを導入し,タイムスタンプを体系的に同期させ,正確なラベル付き話者セグメントを生成する。
論文参考訳（メタデータ） (2025-07-25T15:05:20Z)
SSR: Alignment-Aware Modality Connector for Speech Language Models [23.859649312290447]
事前訓練された言語モデル(SpeechLM)に音声を融合することは、通常、長文音声の非効率な符号化や、事前訓練されたテキストのモダリティの破滅的な忘れ込みに悩まされる。そこで我々は,SSR-Connector (Segmented Speech Representation Connector) を提案する。
論文参考訳（メタデータ） (2024-09-30T19:17:46Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition [15.302106458232878]
SummaryMixingは、非ストリーミング音声認識のための自己注意に代わる、有望な線形時間複雑性である。この作業は、SlimiseMixingをストリーミングとオフラインモードの両方で動作するConformer Transducerに拡張する。この新たな線形時間複雑性音声エンコーダは、両方のシナリオにおいて自己注意よりも優れていた。
論文参考訳（メタデータ） (2024-09-11T10:24:43Z)
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。現在、セパレータはASR性能を劣化させるアーティファクトを生産している。本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文参考訳（メタデータ） (2024-06-13T08:20:58Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。過去の研究から,メモリ拡張型自動音声認識モデルを用いた。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文参考訳（メタデータ） (2023-07-03T06:55:03Z)
Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文参考訳（メタデータ） (2023-05-23T16:20:46Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文参考訳（メタデータ） (2021-12-10T23:07:48Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。