論文の概要: Efficient Transformer for Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2107.03069v1
- Date: Wed, 7 Jul 2021 08:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:56:50.651146
- Title: Efficient Transformer for Direct Speech Translation
- Title(参考訳): 直接音声翻訳のための能率変換器
- Authors: Belen Alastruey and Gerard I. G\'allego and Marta R. Costa-juss\`a
- Abstract要約: 提案手法では,効率的な変換器により,変換器の前に畳み込み層を使わずに,分光器で作業することができる。
私たちは、エンコーダ-デコーダモデルを作成しました。そこでは、エンコーダは効率的なトランスフォーマー -- Longformer -- であり、デコーダは従来のトランスフォーマーデコーダです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Transformer-based models has surpassed the barriers of text.
When working with speech, we must face a problem: the sequence length of an
audio input is not suitable for the Transformer. To bypass this problem, a
usual approach is adding strided convolutional layers, to reduce the sequence
length before using the Transformer. In this paper, we propose a new approach
for direct Speech Translation, where thanks to an efficient Transformer we can
work with a spectrogram without having to use convolutional layers before the
Transformer. This allows the encoder to learn directly from the spectrogram and
no information is lost. We have created an encoder-decoder model, where the
encoder is an efficient Transformer -- the Longformer -- and the decoder is a
traditional Transformer decoder. Our results, which are close to the ones
obtained with the standard approach, show that this is a promising research
direction.
- Abstract(参考訳): Transformerベースのモデルの出現は、テキストの障壁を超えた。
音声を扱う場合には、音声入力のシーケンス長がトランスフォーマーには適さないという問題に直面する必要がある。
この問題を回避するため、通常のアプローチでは、Transformerを使用する前にシーケンス長を減らすために、ストライドされた畳み込み層を追加する。
本稿では,効率的なトランスフォーマにより,トランスの前に畳み込み層を使わずにスペクトログラムを処理できる,直接音声変換のための新しい手法を提案する。
これにより、エンコーダはスペクトログラムから直接学習することができ、情報が失われることはない。
我々は、エンコーダが効率的なトランスフォーマー -- ロングフォーマー -- であり、デコーダが伝統的なトランスフォーマーデコーダであるエンコーダ-デコーダモデルを作成しました。
標準的アプローチで得られた結果に近い結果から,これは有望な研究方向性であることが示された。
関連論文リスト
- Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers [6.405360669408265]
本稿では,エンコーダ・デコーダ変換器を簡易に解析する手法を提案する。
LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法では、デコーダが中間エンコーダ層を横断的に表現できるようにする。
質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。
論文 参考訳(メタデータ) (2023-10-05T17:04:59Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Probing Word Translations in the Transformer and Trading Decoder for
Encoder Layers [69.40942736249397]
トランスフォーマー層における単語の翻訳方法はまだ研究されていない。
翻訳はすでにエンコーダ層や入力埋め込みでも徐々に行われています。
実験の結果,翻訳品質が低い2.3までの速度向上が可能であり,さらに18-4のディープエンコーダ構成では翻訳品質が1.42BLEU(En-De)の速度アップで+1.42BLEU(En-De)向上することがわかった。
論文 参考訳(メタデータ) (2020-03-21T06:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。