論文の概要: LAST: Scalable Lattice-Based Speech Modelling in JAX
- arxiv url: http://arxiv.org/abs/2304.13134v1
- Date: Tue, 25 Apr 2023 20:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:34:20.027802
- Title: LAST: Scalable Lattice-Based Speech Modelling in JAX
- Title(参考訳): LAST: JAXにおけるスケーラブルな格子ベースの音声モデリング
- Authors: Ke Wu, Ehsan Variani, Tom Bagby, Michael Riley
- Abstract要約: JAX で LAttice ベースの Speech Transducer ライブラリ LAST を紹介する。
最後に、大きなWFSAにスケールするトレーニングと推論に必要な、微分可能重み付き有限状態オートマトン(WFSA)アルゴリズムを実装した。
本稿では、これらの課題に対処するためにLASTで使用される一般的なテクニックのスイートを説明し、TPUv3とV100 GPUのベンチマークでその効果を実証する。
- 参考スコア(独自算出の注目度): 11.682949982063477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAST, a LAttice-based Speech Transducer library in JAX. With an
emphasis on flexibility, ease-of-use, and scalability, LAST implements
differentiable weighted finite state automaton (WFSA) algorithms needed for
training \& inference that scale to a large WFSA such as a recognition lattice
over the entire utterance. Despite these WFSA algorithms being well-known in
the literature, new challenges arise from performance characteristics of modern
architectures, and from nuances in automatic differentiation. We describe a
suite of generally applicable techniques employed in LAST to address these
challenges, and demonstrate their effectiveness with benchmarks on TPUv3 and
V100 GPU.
- Abstract(参考訳): JAX で LAttice ベースの Speech Transducer ライブラリ LAST を紹介する。
柔軟性、使いやすさ、スケーラビリティに重点を置いて、lastは、発話全体に対する認識格子のような大きなwfsaにスケールする \&推論のトレーニングに必要な微分可能重み付き有限状態オートマトン(wfsa)アルゴリズムを実装している。
これらのWFSAアルゴリズムは文献でよく知られているが、現代のアーキテクチャのパフォーマンス特性や、自動微分におけるニュアンスから新たな課題が生じる。
本稿では、これらの課題に対処するためにLASTで使用される一般的なテクニックのスイートを説明し、TPUv3とV100 GPUのベンチマークでその効果を実証する。
関連論文リスト
- IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。
本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文 参考訳(メタデータ) (2024-05-03T17:34:57Z) - Slax: A Composable JAX Library for Rapid and Flexible Prototyping of Spiking Neural Networks [0.19427883580687189]
本稿では,SNNアルゴリズム設計を高速化するJAXベースのライブラリであるSlaxを紹介する。
Slaxは多様なトレーニングアルゴリズムの最適化実装を提供し、直接性能比較を可能にする。
論文 参考訳(メタデータ) (2024-04-08T18:15:13Z) - ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching [9.884452250478216]
我々は,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。
アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。
システムレベルでは、ALISAは3フェーズのトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
論文 参考訳(メタデータ) (2024-03-26T01:46:34Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Gradient Backpropagation based Feature Attribution to Enable
Explainable-AI on the Edge [1.7338677787507768]
そこで本研究では,勾配バックプロパゲーションに基づく特徴属性アルゴリズムのデータフローを解析し,推論に要するリソースのオーバーヘッドを推定する。
我々は,エッジデバイスを対象とした高レベル合成(HLS)に基づくFPGA設計を開発し,3つの特徴帰属アルゴリズムをサポートする。
提案手法は,最小限のオーバーヘッドで特徴属性をサポートするために推論アクセラレータを再利用し,エッジ上でのリアルタイムXAIを実現する経路を示す。
論文 参考訳(メタデータ) (2022-10-19T22:58:59Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。