論文の概要: Limitations of Autoregressive Models and Their Alternatives
- arxiv url: http://arxiv.org/abs/2010.11939v3
- Date: Mon, 31 May 2021 02:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:56:17.123262
- Title: Limitations of Autoregressive Models and Their Alternatives
- Title(参考訳): 自己回帰モデルの限界とその代替
- Authors: Chu-Cheng Lin and Aaron Jaech and Xin Li and Matthew R. Gormley and
Jason Eisner
- Abstract要約: これらの制限は、モデルをトレーニングするのにどれだけの計算とデータが使われようとも適用されます。
エネルギーベースのモデル(効率的なサンプリングを諦める)と潜在変数の自己回帰モデル(与えられた文字列の効率的なスコアを諦める)は、これらの制限から逃れるには十分強力である。
- 参考スコア(独自算出の注目度): 31.827580420643606
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standard autoregressive language models perform only polynomial-time
computation to compute the probability of the next symbol. While this is
attractive, it means they cannot model distributions whose next-symbol
probability is hard to compute. Indeed, they cannot even model them well enough
to solve associated easy decision problems for which an engineer might want to
consult a language model. These limitations apply no matter how much
computation and data are used to train the model, unless the model is given
access to oracle parameters that grow superpolynomially in sequence length.
Thus, simply training larger autoregressive language models is not a panacea
for NLP. Alternatives include energy-based models (which give up efficient
sampling) and latent-variable autoregressive models (which give up efficient
scoring of a given string). Both are powerful enough to escape the above
limitations.
- Abstract(参考訳): 標準自己回帰言語モデルは、次のシンボルの確率を計算するために多項式時間計算のみを実行する。
これは魅力的だが、次の記号確率が計算しにくい分布をモデル化できないことを意味する。
実際、エンジニアが言語モデルに相談したいと考えるような、関連する簡単な意思決定問題を解決するのに十分なモデリングさえできないのです。
これらの制限は、モデルがシーケンシャルに超多項的に成長するoracleパラメータにアクセスできない限り、モデルのトレーニングにどれだけの計算とデータが使われても適用されます。
したがって、単により大きな自己回帰言語モデルを訓練することは、NLPにとってパナセアではない。
エネルギーベースのモデル(効率的なサンプリングを諦める)や潜在変数の自己回帰モデル(与えられた文字列の効率的な評価を諦める)などがある。
どちらも上記の制限から逃れられるほど強力だ。
関連論文リスト
- Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。
このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。
この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-09T17:05:45Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z) - Interventions and Counterfactuals in Tractable Probabilistic Models:
Limitations of Contemporary Transformations [12.47276164048813]
本研究では,SPNを因果グラフ介入推論に変換すると,限界分布の計算に還元されることを示す。
まず,PSDDから因果グラフを構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-29T15:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。