論文の概要: Don't shoot butterfly with rifles: Multi-channel Continuous Speech
Separation with Early Exit Transformer
- arxiv url: http://arxiv.org/abs/2010.12180v1
- Date: Fri, 23 Oct 2020 06:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:44:42.483014
- Title: Don't shoot butterfly with rifles: Multi-channel Continuous Speech
Separation with Early Exit Transformer
- Title(参考訳): ライフルで蝶を撃つな - 早期出口変圧器によるマルチチャネル連続音声分離
- Authors: Sanyuan Chen, Yu Wu, Zhuo Chen, Takuya Yoshioka, Shujie Liu, Jinyu Li
- Abstract要約: そこで本研究では,Transformerモデルで異なるケースを適応深度で処理できる早期出口機構を提案する。
実験結果から,早期出口機構が推論を加速するだけでなく,精度も向上することが示唆された。
- 参考スコア(独自算出の注目度): 43.79079342035695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With its strong modeling capacity that comes from a multi-head and
multi-layer structure, Transformer is a very powerful model for learning a
sequential representation and has been successfully applied to speech
separation recently. However, multi-channel speech separation sometimes does
not necessarily need such a heavy structure for all time frames especially when
the cross-talker challenge happens only occasionally. For example, in
conversation scenarios, most regions contain only a single active speaker,
where the separation task downgrades to a single speaker enhancement problem.
It turns out that using a very deep network structure for dealing with signals
with a low overlap ratio not only negatively affects the inference efficiency
but also hurts the separation performance. To deal with this problem, we
propose an early exit mechanism, which enables the Transformer model to handle
different cases with adaptive depth. Experimental results indicate that not
only does the early exit mechanism accelerate the inference, but it also
improves the accuracy.
- Abstract(参考訳): マルチヘッドおよびマルチレイヤー構造による強力なモデリング能力を持つtransformerは、シーケンシャル表現を学習するための非常に強力なモデルであり、近年、音声分離にうまく適用されている。
しかし、多チャンネル音声分離は、時として全ての時間フレームにそのような重い構造を必要としないことがある。
例えば、会話のシナリオでは、ほとんどの領域は単一のアクティブ話者のみを含み、分離タスクは単一の話者拡張問題にダウングレードする。
重なり合いの少ない信号を扱うために非常に深いネットワーク構造を用いると、推論効率に悪影響を及ぼすだけでなく、分離性能にも悪影響を及ぼすことがわかった。
そこで本研究では, 変圧器モデルが適応的な深さの異なるケースを処理できる早期脱出機構を提案する。
実験の結果,早期出口機構が推論を加速するだけでなく,精度も向上することが示された。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis [7.865191493201841]
言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。
本稿では,リピートやスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。
我々のアーキテクチャは、長いサンプルで効率的に訓練し、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。
論文 参考訳(メタデータ) (2024-06-06T19:48:17Z) - DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion
Transformer [110.32147183360843]
音声駆動の3D顔アニメーションは多くのマルチメディアアプリケーションにとって重要である。
最近の研究は、このタスクにDiffusionモデルまたはTransformerアーキテクチャを使用する際の有望さを示している。
DiffSpeakerはトランスフォーマーをベースとしたネットワークで、新しいバイアス付条件付アテンションモジュールを備えている。
論文 参考訳(メタデータ) (2024-02-08T14:39:16Z) - Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。