Fugu-MT 論文翻訳(概要): Efficient MDI Adaptation for n-gram Language Models

論文の概要: Efficient MDI Adaptation for n-gram Language Models

arxiv url: http://arxiv.org/abs/2008.02385v1
Date: Wed, 5 Aug 2020 22:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 18:11:21.037294
Title: Efficient MDI Adaptation for n-gram Language Models
Title（参考訳）: n-gram言語モデルの効率的なmdi適応
Authors: Ruizhe Huang, Ke Li, Ashish Arora, Dan Povey and Sanjeev Khudanpur
Abstract要約: 本稿では,n-gram言語モデル適応のための最小識別情報原理に基づく効率的なアルゴリズムを提案する。 n-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。
参考スコア（独自算出の注目度）: 25.67864542036985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an efficient algorithm for n-gram language model adaptation under the minimum discrimination information (MDI) principle, where an out-of-domain language model is adapted to satisfy the constraints of marginal probabilities of the in-domain data. The challenge for MDI language model adaptation is its computational complexity. By taking advantage of the backoff structure of n-gram model and the idea of hierarchical training method, originally proposed for maximum entropy (ME) language models, we show that MDI adaptation can be computed in linear-time complexity to the inputs in each iteration. The complexity remains the same as ME models, although MDI is more general than ME. This makes MDI adaptation practical for large corpus and vocabulary. Experimental results confirm the scalability of our algorithm on very large datasets, while MDI adaptation gets slightly worse perplexity but better word error rate results compared to simple linear interpolation.
Abstract（参考訳）: 本稿では,領域内データの限界確率の制約を満たすために,領域外言語モデルを適用する最小識別情報(mdi)原理に基づくn-gram言語モデル適応のための効率的なアルゴリズムを提案する。 mdi言語モデル適応の課題は計算の複雑さである。もともと最大エントロピー(ME)言語モデルのために提案されていたn-gramモデルのバックオフ構造と階層的トレーニング手法のアイデアを利用して、MDI適応を各反復における入力に対する線形時間複雑度で計算可能であることを示す。複雑さはMEモデルと同じだが、MDIはMEよりも一般的である。これにより、MDI適応は大きなコーパスと語彙に実用的である。実験結果から,MDI適応は単純な線形補間に比べて若干複雑だが,単語誤り率も良くなる一方,非常に大きなデータセット上でのアルゴリズムのスケーラビリティが確認できる。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。 mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文参考訳（メタデータ） (2025-02-14T13:10:39Z)
A Low-Complexity Plug-and-Play Deep Learning Model for Massive MIMO Precoding Across Sites [5.896656636095934]
MMIMO技術は、スペクトル効率とネットワーク容量を向上させることで、無線通信を変革した。本稿では,既存のアプローチの複雑性問題に対処するための,新しいディープラーニングベースのmMIMOプリコーダを提案する。
論文参考訳（メタデータ） (2025-02-12T20:02:36Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。 LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文参考訳（メタデータ） (2024-10-01T16:10:21Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。 CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。 CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文参考訳（メタデータ） (2024-02-05T03:25:04Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Autoregressive Diffusion Models [34.125045462636386]
本稿では,次数に依存しない自己回帰モデルを含むモデルクラスであるAutoregressive Diffusion Models (ARDMs)を紹介する。 ARDMは実装が簡単で、訓練も容易であり、現代の確率的拡散モデルに似た効率的な目的を用いて訓練することができる。我々は,ARDMが完全なデータセットだけでなく,単一のデータポイントの圧縮においても,説得力のある結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-05T13:36:55Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Bayesian Inference of Minimally Complex Models with Interactions of Arbitrary Order [0.0]
最小複雑モデル (Minimally Complex Models, MCM) は、任意の高階の相互作用を最小の複雑さの独立したコンポーネントに分類した単純なモデルである。 MCMに制限されたベイズモデル選択は計算可能であり、多くの利点があることを示す。 MCMは任意の順序の相互作用を持つため、データに重要な高次依存関係が存在することを明らかにすることができる。
論文参考訳（メタデータ） (2020-08-02T16:57:02Z)
Expected Information Maximization: Using the I-Projection for Mixture Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文参考訳（メタデータ） (2020-01-23T17:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。