論文の概要: On the N-gram Approximation of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.06892v1
- Date: Mon, 12 Jun 2023 06:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:59:46.164849
- Title: On the N-gram Approximation of Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルのN-gram近似について
- Authors: Aravind Krishnan, Jesujoba Alabi, Dietrich Klakow
- Abstract要約: 大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。
本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。
我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
- 参考スコア(独自算出の注目度): 17.764803904135903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained language models (PLMs) have shown remarkable performance
across various natural language understanding (NLU) tasks, particularly in
low-resource settings. Nevertheless, their potential in Automatic Speech
Recognition (ASR) remains largely unexplored. This study investigates the
potential usage of PLMs for language modelling in ASR. We compare the
application of large-scale text sampling and probability conversion for
approximating GPT-2 into an n-gram model. Furthermore, we introduce a
vocabulary-restricted decoding method for random sampling, and evaluate the
effects of domain difficulty and data size on the usability of generated text.
Our findings across eight domain-specific corpora support the use of
sampling-based approximation and show that interpolating with a large sampled
corpus improves test perplexity over a baseline trigram by 15%. Our
vocabulary-restricted decoding method pushes this improvement further by 5% in
domain-specific settings.
- Abstract(参考訳): 大規模事前学習型言語モデル (plm) は様々な自然言語理解 (nlu) タスク、特に低リソース設定において顕著な性能を示している。
それでも、ASR(Automatic Speech Recognition)におけるその可能性はほとんど解明されていない。
本研究では, ASR における言語モデリングにおける PLM の利用可能性について検討した。
gpt-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用を比較した。
さらに,ランダムサンプリングのための語彙制限復号法を提案し,生成されたテキストのユーザビリティに対するドメイン難易度とデータサイズの影響を評価する。
本研究は,8つのドメイン固有コーパスにまたがってサンプリングベース近似を適用し,大規模なサンプルコーパスの補間により,ベースライントリグラム上での試験パープレキシティが15%向上することを示す。
語彙制限付き復号法は、ドメイン固有の設定において、この改善をさらに5%押し上げる。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。