論文の概要: Efficient MDI Adaptation for n-gram Language Models
- arxiv url: http://arxiv.org/abs/2008.02385v1
- Date: Wed, 5 Aug 2020 22:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:11:21.037294
- Title: Efficient MDI Adaptation for n-gram Language Models
- Title(参考訳): n-gram言語モデルの効率的なmdi適応
- Authors: Ruizhe Huang, Ke Li, Ashish Arora, Dan Povey and Sanjeev Khudanpur
- Abstract要約: 本稿では,n-gram言語モデル適応のための最小識別情報原理に基づく効率的なアルゴリズムを提案する。
n-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
- 参考スコア(独自算出の注目度): 25.67864542036985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an efficient algorithm for n-gram language model
adaptation under the minimum discrimination information (MDI) principle, where
an out-of-domain language model is adapted to satisfy the constraints of
marginal probabilities of the in-domain data. The challenge for MDI language
model adaptation is its computational complexity. By taking advantage of the
backoff structure of n-gram model and the idea of hierarchical training method,
originally proposed for maximum entropy (ME) language models, we show that MDI
adaptation can be computed in linear-time complexity to the inputs in each
iteration. The complexity remains the same as ME models, although MDI is more
general than ME. This makes MDI adaptation practical for large corpus and
vocabulary. Experimental results confirm the scalability of our algorithm on
very large datasets, while MDI adaptation gets slightly worse perplexity but
better word error rate results compared to simple linear interpolation.
- Abstract(参考訳): 本稿では,領域内データの限界確率の制約を満たすために,領域外言語モデルを適用する最小識別情報(mdi)原理に基づくn-gram言語モデル適応のための効率的なアルゴリズムを提案する。
mdi言語モデル適応の課題は計算の複雑さである。
もともと最大エントロピー(ME)言語モデルのために提案されていたn-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
複雑さはMEモデルと同じだが、MDIはMEよりも一般的である。
これにより、MDI適応は大きなコーパスと語彙に実用的である。
実験結果から,MDI適応は単純な線形補間に比べて若干複雑だが,単語誤り率も良くなる一方,非常に大きなデータセット上でのアルゴリズムのスケーラビリティが確認できる。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Autoregressive Diffusion Models [34.125045462636386]
本稿では,次数に依存しない自己回帰モデルを含むモデルクラスであるAutoregressive Diffusion Models (ARDMs)を紹介する。
ARDMは実装が簡単で、訓練も容易であり、現代の確率的拡散モデルに似た効率的な目的を用いて訓練することができる。
我々は,ARDMが完全なデータセットだけでなく,単一のデータポイントの圧縮においても,説得力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-05T13:36:55Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Efficient Construction of Nonlinear Models over Normalized Data [21.531781003420573]
混合モデルを構築するためにバイナリ結合とマルチウェイ結合の両方を系統的に分解する方法を示す。
本稿では,ネットワークの学習を因子的に行うアルゴリズムを提案し,性能上の優位性を提供する。
論文 参考訳(メタデータ) (2020-11-23T19:20:03Z) - Statistical Inference of Minimally Complex Models [0.0]
最小複素モデル (Minimally Complex Models, MCM) は任意の順序の相互作用を持つスピンモデルである。
これらのモデルに限定されたベイズモデル選択は計算可能であることが示される。
モデル複雑性に対して適合性をトレードオフするそれらの証拠は、パラメータフィッティングなしで容易に計算できる。
論文 参考訳(メタデータ) (2020-08-02T16:57:02Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。