論文の概要: Limitations of Autoregressive Models and Their Alternatives
- arxiv url: http://arxiv.org/abs/2010.11939v3
- Date: Mon, 31 May 2021 02:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:56:17.123262
- Title: Limitations of Autoregressive Models and Their Alternatives
- Title(参考訳): 自己回帰モデルの限界とその代替
- Authors: Chu-Cheng Lin and Aaron Jaech and Xin Li and Matthew R. Gormley and
Jason Eisner
- Abstract要約: これらの制限は、モデルをトレーニングするのにどれだけの計算とデータが使われようとも適用されます。
エネルギーベースのモデル(効率的なサンプリングを諦める)と潜在変数の自己回帰モデル(与えられた文字列の効率的なスコアを諦める)は、これらの制限から逃れるには十分強力である。
- 参考スコア(独自算出の注目度): 31.827580420643606
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standard autoregressive language models perform only polynomial-time
computation to compute the probability of the next symbol. While this is
attractive, it means they cannot model distributions whose next-symbol
probability is hard to compute. Indeed, they cannot even model them well enough
to solve associated easy decision problems for which an engineer might want to
consult a language model. These limitations apply no matter how much
computation and data are used to train the model, unless the model is given
access to oracle parameters that grow superpolynomially in sequence length.
Thus, simply training larger autoregressive language models is not a panacea
for NLP. Alternatives include energy-based models (which give up efficient
sampling) and latent-variable autoregressive models (which give up efficient
scoring of a given string). Both are powerful enough to escape the above
limitations.
- Abstract(参考訳): 標準自己回帰言語モデルは、次のシンボルの確率を計算するために多項式時間計算のみを実行する。
これは魅力的だが、次の記号確率が計算しにくい分布をモデル化できないことを意味する。
実際、エンジニアが言語モデルに相談したいと考えるような、関連する簡単な意思決定問題を解決するのに十分なモデリングさえできないのです。
これらの制限は、モデルがシーケンシャルに超多項的に成長するoracleパラメータにアクセスできない限り、モデルのトレーニングにどれだけの計算とデータが使われても適用されます。
したがって、単により大きな自己回帰言語モデルを訓練することは、NLPにとってパナセアではない。
エネルギーベースのモデル(効率的なサンプリングを諦める)や潜在変数の自己回帰モデル(与えられた文字列の効率的な評価を諦める)などがある。
どちらも上記の制限から逃れられるほど強力だ。
関連論文リスト
- A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Efficient Gaussian Neural Processes for Regression [7.149677544861951]
条件付きニューラルプロセス(CNP)は、よく校正された予測を生成し、テスト時に高速な推論を可能にし、単純な最大精度手順でトレーニングできる。
CNPの制限は、出力の依存性をモデル化できないことである。
出力依存をモデル化する別の方法を提案する。
論文 参考訳(メタデータ) (2021-08-22T09:31:50Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Interventions and Counterfactuals in Tractable Probabilistic Models:
Limitations of Contemporary Transformations [12.47276164048813]
本研究では,SPNを因果グラフ介入推論に変換すると,限界分布の計算に還元されることを示す。
まず,PSDDから因果グラフを構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-29T15:45:47Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。