論文の概要: Efficient MDI Adaptation for n-gram Language Models
- arxiv url: http://arxiv.org/abs/2008.02385v1
- Date: Wed, 5 Aug 2020 22:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:11:21.037294
- Title: Efficient MDI Adaptation for n-gram Language Models
- Title(参考訳): n-gram言語モデルの効率的なmdi適応
- Authors: Ruizhe Huang, Ke Li, Ashish Arora, Dan Povey and Sanjeev Khudanpur
- Abstract要約: 本稿では,n-gram言語モデル適応のための最小識別情報原理に基づく効率的なアルゴリズムを提案する。
n-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
- 参考スコア(独自算出の注目度): 25.67864542036985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an efficient algorithm for n-gram language model
adaptation under the minimum discrimination information (MDI) principle, where
an out-of-domain language model is adapted to satisfy the constraints of
marginal probabilities of the in-domain data. The challenge for MDI language
model adaptation is its computational complexity. By taking advantage of the
backoff structure of n-gram model and the idea of hierarchical training method,
originally proposed for maximum entropy (ME) language models, we show that MDI
adaptation can be computed in linear-time complexity to the inputs in each
iteration. The complexity remains the same as ME models, although MDI is more
general than ME. This makes MDI adaptation practical for large corpus and
vocabulary. Experimental results confirm the scalability of our algorithm on
very large datasets, while MDI adaptation gets slightly worse perplexity but
better word error rate results compared to simple linear interpolation.
- Abstract(参考訳): 本稿では,領域内データの限界確率の制約を満たすために,領域外言語モデルを適用する最小識別情報(mdi)原理に基づくn-gram言語モデル適応のための効率的なアルゴリズムを提案する。
mdi言語モデル適応の課題は計算の複雑さである。
もともと最大エントロピー(ME)言語モデルのために提案されていたn-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
複雑さはMEモデルと同じだが、MDIはMEよりも一般的である。
これにより、MDI適応は大きなコーパスと語彙に実用的である。
実験結果から,MDI適応は単純な線形補間に比べて若干複雑だが,単語誤り率も良くなる一方,非常に大きなデータセット上でのアルゴリズムのスケーラビリティが確認できる。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Autoregressive Diffusion Models [34.125045462636386]
本稿では,次数に依存しない自己回帰モデルを含むモデルクラスであるAutoregressive Diffusion Models (ARDMs)を紹介する。
ARDMは実装が簡単で、訓練も容易であり、現代の確率的拡散モデルに似た効率的な目的を用いて訓練することができる。
我々は,ARDMが完全なデータセットだけでなく,単一のデータポイントの圧縮においても,説得力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-05T13:36:55Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Bayesian Inference of Minimally Complex Models with Interactions of Arbitrary Order [0.0]
最小複雑モデル (Minimally Complex Models, MCM) は、任意の高階の相互作用を最小の複雑さの独立したコンポーネントに分類した単純なモデルである。
MCMに制限されたベイズモデル選択は計算可能であり、多くの利点があることを示す。
MCMは任意の順序の相互作用を持つため、データに重要な高次依存関係が存在することを明らかにすることができる。
論文 参考訳(メタデータ) (2020-08-02T16:57:02Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。