論文の概要: How do Hyenas deal with Human Speech? Speech Recognition and Translation
with ConfHyena
- arxiv url: http://arxiv.org/abs/2402.13208v1
- Date: Tue, 20 Feb 2024 18:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:50:57.378089
- Title: How do Hyenas deal with Human Speech? Speech Recognition and Translation
with ConfHyena
- Title(参考訳): ハイエナは人間のスピーチをどう扱うのか?
ConfHyenaによる音声認識と翻訳
- Authors: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
- Abstract要約: 本稿では,エンコーダの自己注意をハイエナの適応に置き換えたコンバータConfHyenaを提案する。
最高のConfHyenaモデルは、最小品質の劣化を犠牲にして、トレーニング時間を27%削減できることを示します。
- 参考スコア(独自算出の注目度): 25.954936858332612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism, a cornerstone of state-of-the-art neural models,
faces computational hurdles in processing long sequences due to its quadratic
complexity. Consequently, research efforts in the last few years focused on
finding more efficient alternatives. Among them, Hyena (Poli et al., 2023)
stands out for achieving competitive results in both language modeling and
image classification, while offering sub-quadratic memory and computational
complexity. Building on these promising results, we propose ConfHyena, a
Conformer whose encoder self-attentions are replaced with an adaptation of
Hyena for speech processing, where the long input sequences cause high
computational costs. Through experiments in automatic speech recognition (for
English) and translation (from English into 8 target languages), we show that
our best ConfHyena model significantly reduces the training time by 27%, at the
cost of minimal quality degradation (~1%), which, in most cases, is not
statistically significant.
- Abstract(参考訳): アテンション機構は最先端のニューラルモデルの基盤であり、二次複雑性のために長いシーケンスを処理する計算上のハードルに直面している。
その結果、過去数年間の研究はより効率的な代替手段を見つけることに集中した。
その中でもハイエナ(poli et al., 2023)は、言語モデリングと画像分類の両方において競争的な結果を達成し、サブクアドドラティックメモリと計算複雑性を提供している。
これらの有望な結果に基づいて,エンコーダ自己アテンションをハイエナの適応に置き換えたコンフォーメータであるconfhyenaを提案する。
自動音声認識(英語)と翻訳(英語から8つのターゲット言語への翻訳)の実験を通じて、我々の最良の共犯モデルは、最小品質劣化(約1%)のコストで、トレーニング時間を27%大幅に削減できることを示し、ほとんどの場合、統計的に有意ではない。
関連論文リスト
- Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Hyena Hierarchy: Towards Larger Convolutional Language Models [115.82857881546089]
ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
論文 参考訳(メタデータ) (2023-02-21T18:29:25Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Targeted Assessment of Incremental Processing in Neural LanguageModels
and Humans [2.7624021966289605]
本稿では,人間とニューラル言語モデルにおけるインクリメンタル処理のスケールアップ比較について述べる。
データはInterpolated Maze Taskと呼ばれる新しいオンライン実験パラダイムに由来する。
人間と言語モデルの両方が、非文法的な文領域における処理困難を増大させていることが判明した。
論文 参考訳(メタデータ) (2021-06-06T20:04:39Z) - Super-Human Performance in Online Low-latency Recognition of
Conversational Speech [18.637636841477]
本稿では,話者の発話のわずか1秒の遅延時間で,超人的性能を実現するシステムについて述べる。
このシステムは、新しい低レイテンシインクリメンタル推論アプローチに統合された複数のアテンションベースのエンコーダデコーダネットワークを使用する。
論文 参考訳(メタデータ) (2020-10-07T14:41:32Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。