Fugu-MT 論文翻訳(概要): Limitations of Autoregressive Models and Their Alternatives

論文の概要: Limitations of Autoregressive Models and Their Alternatives

arxiv url: http://arxiv.org/abs/2010.11939v3
Date: Mon, 31 May 2021 02:09:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 04:56:17.123262
Title: Limitations of Autoregressive Models and Their Alternatives
Title（参考訳）: 自己回帰モデルの限界とその代替
Authors: Chu-Cheng Lin and Aaron Jaech and Xin Li and Matthew R. Gormley and Jason Eisner
Abstract要約: これらの制限は、モデルをトレーニングするのにどれだけの計算とデータが使われようとも適用されます。エネルギーベースのモデル(効率的なサンプリングを諦める)と潜在変数の自己回帰モデル(与えられた文字列の効率的なスコアを諦める)は、これらの制限から逃れるには十分強力である。
参考スコア（独自算出の注目度）: 31.827580420643606
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Standard autoregressive language models perform only polynomial-time computation to compute the probability of the next symbol. While this is attractive, it means they cannot model distributions whose next-symbol probability is hard to compute. Indeed, they cannot even model them well enough to solve associated easy decision problems for which an engineer might want to consult a language model. These limitations apply no matter how much computation and data are used to train the model, unless the model is given access to oracle parameters that grow superpolynomially in sequence length. Thus, simply training larger autoregressive language models is not a panacea for NLP. Alternatives include energy-based models (which give up efficient sampling) and latent-variable autoregressive models (which give up efficient scoring of a given string). Both are powerful enough to escape the above limitations.
Abstract（参考訳）: 標準自己回帰言語モデルは、次のシンボルの確率を計算するために多項式時間計算のみを実行する。これは魅力的だが、次の記号確率が計算しにくい分布をモデル化できないことを意味する。実際、エンジニアが言語モデルに相談したいと考えるような、関連する簡単な意思決定問題を解決するのに十分なモデリングさえできないのです。これらの制限は、モデルがシーケンシャルに超多項的に成長するoracleパラメータにアクセスできない限り、モデルのトレーニングにどれだけの計算とデータが使われても適用されます。したがって、単により大きな自己回帰言語モデルを訓練することは、NLPにとってパナセアではない。エネルギーベースのモデル(効率的なサンプリングを諦める)や潜在変数の自己回帰モデル(与えられた文字列の効率的な評価を諦める)などがある。どちらも上記の制限から逃れられるほど強力だ。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文参考訳（メタデータ） (2024-11-12T04:25:31Z)
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文参考訳（メタデータ） (2024-09-19T16:50:26Z)
Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文参考訳（メタデータ） (2024-08-09T17:05:45Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Induced Model Matching: Restricted Models Help Train Full-Featured Models [1.4963011898406866]
フル機能の(大きな)モデルをトレーニングする際に、制限された機能を使用した非常に正確な(小さな)予測モデルが利用可能であるシナリオを検討する。制限されたモデルは、フルモデルにどのように役立つのか? 誘導モデルマッチング(IMM)と呼ばれる手法を導入する。 IMMは、大きなモデルのコンテキスト制限された、あるいは誘導されたバージョンと制限されたモデルとを一致させる。
論文参考訳（メタデータ） (2024-02-19T20:21:09Z)
A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文参考訳（メタデータ） (2023-12-06T20:58:07Z)
ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文参考訳（メタデータ） (2023-11-30T15:06:50Z)
Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文参考訳（メタデータ） (2023-10-23T04:35:58Z)
Oracle Inequalities for Model Selection in Offline Reinforcement Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文参考訳（メタデータ） (2022-11-03T17:32:34Z)
Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文参考訳（メタデータ） (2021-02-10T11:04:17Z)
Interventions and Counterfactuals in Tractable Probabilistic Models: Limitations of Contemporary Transformations [12.47276164048813]
本研究では,SPNを因果グラフ介入推論に変換すると,限界分布の計算に還元されることを示す。まず,PSDDから因果グラフを構築するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-29T15:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。