論文の概要: Next-Token Prediction and Regret Minimization
- arxiv url: http://arxiv.org/abs/2603.28499v1
- Date: Mon, 30 Mar 2026 14:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.44406
- Title: Next-Token Prediction and Regret Minimization
- Title(参考訳): 次世代予測とレグレット最小化
- Authors: Mehryar Mohri, Clayton Sanford, Jon Schneider, Kiran Vodrahalli, Yifan Wu,
- Abstract要約: 対戦型オンライン意思決定環境において,次世代の予測アルゴリズムをいかに活用するかという課題を考察する。
すべての分布 $mathcalD$ は低回帰分布ではないが、すべての分布 $mathcalD$ は1つの低回帰分布に指数関数的に近いことを示す。
- 参考スコア(独自算出の注目度): 39.73178505655866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the question of how to employ next-token prediction algorithms in adversarial online decision-making environments. Specifically, if we train a next-token prediction model on a distribution $\mathcal{D}$ over sequences of opponent actions, when is it the case that the induced online decision-making algorithm (by approximately best responding to the model's predictions) has low adversarial regret (i.e., when is $\mathcal{D}$ a \emph{low-regret distribution})? For unbounded context windows (where the prediction made by the model can depend on all the actions taken by the adversary thus far), we show that although not every distribution $\mathcal{D}$ is a low-regret distribution, every distribution $\mathcal{D}$ is exponentially close (in TV distance) to one low-regret distribution, and hence sublinear regret can always be achieved at negligible cost to the accuracy of the original next-token prediction model. In contrast to this, for bounded context windows (where the prediction made by the model can depend only on the past $w$ actions taken by the adversary, as may be the case in modern transformer architectures), we show that there are some distributions $\mathcal{D}$ of opponent play that are $Θ(1)$-far from any low-regret distribution $\mathcal{D'}$ (even when $w = Ω(T)$ and such distributions exist). Finally, we complement these results by showing that the unbounded context robustification procedure can be implemented by layers of a standard transformer architecture, and provide empirical evidence that transformer models can be efficiently trained to represent these new low-regret distributions.
- Abstract(参考訳): 対戦型オンライン意思決定環境において,次世代の予測アルゴリズムをいかに活用するかという課題を考察する。
具体的には、ある分布上の次トーケン予測モデルに、対立する行動の列に対して$\mathcal{D}$をトレーニングした場合、帰納的オンライン決定アルゴリズム(モデルの予測にほぼ最もよく反応する)が反逆的後悔の少ない場合(つまり、$\mathcal{D}$ a \emph{low-regret distribution})はいつになるのか?
すべての分布 $\mathcal{D}$ が低レグレット分布であるわけではないが、すべての分布 $\mathcal{D}$ は1つの低レグレット分布に指数関数的に(テレビ距離において)近いので、従って線形後悔は常に元の次トーケン予測モデルの精度に無視できるコストで達成できることを示す。
これとは対照的に、有界なコンテキストウィンドウ(現在のトランスフォーマーアーキテクチャのように、モデルによってなされた予測は、過去の$w$アクションにのみ依存する)では、任意の低regret分布から$\mathcal{D'}$ (w = Ω(T)$とそのような分布が存在するとしても) の逆プレイの$\mathcal{D}$が存在することを示す。
最後に, 標準変圧器アーキテクチャの層によって非有界なコンテキストロバスト化処理が実装可能であることを示すことによって, これらの結果を補完し, これらの新しい低相対分布を表現するために, 変圧器モデルを効率的に訓練できるという実証的な証拠を提供する。
関連論文リスト
- Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model [2.7074235008521246]
ニューラルネットワークのスケーリング法則を最終層微細チューニングの解法モデルで解析する。
学習がエラー分布の「ハードテール」を小さくすることを示す。
論文 参考訳(メタデータ) (2026-01-07T10:00:17Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Universal Batch Learning Under The Misspecification Setting [4.772817128620037]
ログロスを伴う不特定設定において、普遍的なエムバッチ学習の問題を考察する。
我々は、最適普遍学習者、データ生成分布の集合上の混合を導出し、min-max後悔を表す閉形式表現を得る。
論文 参考訳(メタデータ) (2024-05-12T11:16:05Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - CARD: Classification and Regression Diffusion Models [51.0421331214229]
本稿では,条件生成モデルと事前学習条件平均推定器を組み合わせた分類と回帰拡散(CARD)モデルを提案する。
おもちゃの例と実世界のデータセットを用いて条件分布予測におけるCARDの卓越した能力を示す。
論文 参考訳(メタデータ) (2022-06-15T03:30:38Z) - On Misspecification in Prediction Problems and Robustness via Improper
Learning [23.64462813525688]
広い種類の損失関数とパラメトリック分布の族に対して、"プロパ"予測子をプレイしたことの後悔は、少なくとも$sqrtgamma n$として境界スケーリングを下げていることが示される。
パラメトリックファミリーの凸体で分布を再生する可能性のあるすべての学習者の家族にしても、これは改善できない例を示します。
論文 参考訳(メタデータ) (2021-01-13T17:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。