Fugu-MT 論文翻訳(概要): Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

論文の概要: Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2409.00815v2
Date: Thu, 5 Sep 2024 16:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 12:28:47.663130
Title: Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
Title（参考訳）: 複数話者音声認識のための重複符号化分離によるシリアライズされた音声情報誘導
Authors: Hao Shi, Yuan Gao, Zhaoheng Ni, Tatsuya Kawahara,
Abstract要約: 本稿では,コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために,重複符号化分離(EncSep)を提案する。 LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。
参考スコア（独自算出の注目度）: 29.213510690345096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for multi-speaker automatic speech recognition (ASR). However, it is not easy to train with attention loss only. In this paper, we propose the overlapped encoding separation (EncSep) to fully utilize the benefits of the connectionist temporal classification (CTC) and attention hybrid loss. This additional separator is inserted after the encoder to extract the multi-speaker information with CTC losses. Furthermore, we propose the serialized speech information guidance SOT (GEncSep) to further utilize the separated encodings. The separated streams are concatenated to provide single-speaker information to guide attention during decoding. The experimental results on LibriMix show that the single-speaker encoding can be separated from the overlapped encoding. The CTC loss helps to improve the encoder representation under complex scenarios. GEncSep further improved performance.
Abstract（参考訳）: SOT(Serialized output training)は、マルチ話者自動音声認識(ASR)の利便性と柔軟性から注目されている。しかし、注意をそらすだけの訓練は容易ではない。本稿では、コネクショニスト時間分類(CTC)と注意ハイブリッド損失の利点をフル活用するために、重複符号化分離(EncSep)を提案する。この追加セパレータはエンコーダの後に挿入され、CTC損失を伴うマルチスピーカ情報を抽出する。さらに、分離された符号化をさらに活用するために、シリアライズされた音声情報誘導SOT(GEncSep)を提案する。分離されたストリームは、デコード時に注意を誘導する単一話者情報を提供するために連結される。 LibriMixの実験結果から, 重複符号化から単一話者符号化を分離できることが示唆された。 CTC損失は複雑なシナリオ下でのエンコーダ表現の改善に役立つ。 GEncSepはさらにパフォーマンスを改善した。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning [0.15346678870160887]
本稿では、2つの異なるCNNベースのエンコーダの特徴を統合する新しいアプローチを提案する。また、重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
論文参考訳（メタデータ） (2025-02-13T12:54:13Z)
$ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文参考訳（メタデータ） (2024-10-05T08:27:53Z)
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文参考訳（メタデータ） (2024-09-19T01:26:33Z)
Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文参考訳（メタデータ） (2024-02-19T18:06:02Z)
Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding [29.80299587861207]
ASRのための音響・意味的協調デコーダ(ASCD)を提案する。音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-05-23T13:25:44Z)
Linguistic-Enhanced Transformer with CTC Embedding for Speech Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。 AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文参考訳（メタデータ） (2022-10-25T08:12:59Z)
Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。 MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文参考訳（メタデータ） (2022-07-13T17:59:55Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Automatic Audio Captioning using Attention weighted Event based Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。 AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文参考訳（メタデータ） (2022-01-28T05:54:19Z)
Local Information Assisted Attention-free Decoder for Audio Captioning [52.191658157204856]
本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
論文参考訳（メタデータ） (2022-01-10T08:55:52Z)
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文参考訳（メタデータ） (2021-09-27T05:21:30Z)
CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文参考訳（メタデータ） (2021-06-14T20:03:57Z)
Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。 Stackedを提案します。音声翻訳のための音響・テキスト(SATE)法エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。 MTエンコーダは入力シーケンスのグローバル表現である。
論文参考訳（メタデータ） (2021-05-12T16:09:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。