論文の概要: On Next-Token Prediction in LLMs: How End Goals Determine the Consistency of Decoding Algorithms
- arxiv url: http://arxiv.org/abs/2505.11183v1
- Date: Fri, 16 May 2025 12:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.970477
- Title: On Next-Token Prediction in LLMs: How End Goals Determine the Consistency of Decoding Algorithms
- Title(参考訳): LLMにおける次トーケン予測について:エンドゴールがデコードアルゴリズムの整合性を決定する方法
- Authors: Jacob Trauger, Ambuj Tewari,
- Abstract要約: クロスエントロピー損失を用いて訓練された次のトーケン予測は、ほとんどの大きな言語モデルの基礎である。
本稿では、これらのアルゴリズムのいくつかを検証し、損失関数として符号化された様々な目標に対する一貫性について検討する。
- 参考スコア(独自算出の注目度): 17.98959620987217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilistic next-token prediction trained using cross-entropy loss is the basis of most large language models. Given a sequence of previous values, next-token prediction assigns a probability to each possible next value in the vocabulary. There are many ways to use next-token prediction to output token sequences. This paper examines a few of these algorithms (greedy, lookahead, random sampling, and temperature-scaled random sampling) and studies their consistency with respect to various goals encoded as loss functions. Although consistency of surrogate losses with respect to a target loss function is a well researched topic, we are the first to study it in the context of LLMs (to the best of our knowledge). We find that, so long as next-token prediction converges to its true probability distribution, random sampling is consistent with outputting sequences that mimic sampling from the true probability distribution. For the other goals, such as minimizing the 0-1 loss on the entire sequence, we show no polynomial-time algorithm is optimal for all probability distributions and all decoding algorithms studied are only optimal for a subset of probability distributions. When analyzing these results, we see that there is a dichotomy created between the goals of information retrieval and creative generation for the decoding algorithms. This shows that choosing the correct decoding algorithm based on the desired goal is extremely important and many of the ones used are lacking theoretical grounding in numerous scenarios.
- Abstract(参考訳): クロスエントロピー損失を用いて訓練された確率論的次トーケン予測は、ほとんどの大きな言語モデルの基礎である。
先行した値の列が与えられた場合、次の確率予測は語彙の可能な次の値に確率を割り当てる。
トークンシーケンスを出力するために、次のトークン予測を使う方法はたくさんあります。
本稿では,これらのアルゴリズムのいくつか (greedy, lookahead, random sample, and temperature-scaled random sample) について検討し,損失関数として符号化された様々な目標に対する一貫性について検討する。
目的の損失関数に対する代理損失の整合性はよく研究されているトピックであるが、LLMの文脈で(私たちの知る限り)最初に研究する。
我々は,次トーケン予想が真の確率分布に収束する限り,乱数サンプリングは真の確率分布からのサンプリングを模倣したシーケンスの出力と整合性があることを見出した。
他の目的、例えばシーケンス全体の0-1損失を最小化するなど、全ての確率分布に対して多項式時間アルゴリズムが最適でないことを示し、研究された全ての復号アルゴリズムは確率分布のサブセットに対してのみ最適であることを示す。
これらの結果を分析すると、情報検索の目標とデコードアルゴリズムの創造的生成との間に二分法が存在することが分かる。
このことは、目的に基づいて正しい復号アルゴリズムを選択することが極めて重要であり、多くのシナリオでは理論的な根拠が欠如していることを示している。
関連論文リスト
- Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
本研究では,大規模言語モデルのテスト時間計算において,証明可能なスケーリング法則を享受する2つのアルゴリズムを提案する。
1つは2段階ノックアウト方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
もう1つは2段階のリーグ方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Competitive Algorithms for Online Knapsack with Succinct Predictions [16.793099279933163]
オンラインのknapsack問題では、異なる値と重みを持つオンラインで到着するアイテムをキャパシティ限定のknapsackにまとめて、受け入れられたアイテムの総価値を最大化する。
この問題に対するテキスト学習強化アルゴリズムについて検討し、機械学習による予測を用いて悲観的な最悪のケースの保証を超えて行動することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T20:38:00Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Algorithms with Prediction Portfolios [23.703372221079306]
我々は、マッチング、ロードバランシング、非クレアボイラントスケジューリングなど、多くの基本的な問題に対する複数の予測器の使用について検討する。
これらの問題のそれぞれに対して、複数の予測器を利用する新しいアルゴリズムを導入し、その結果のパフォーマンスに限界を証明します。
論文 参考訳(メタデータ) (2022-10-22T12:58:07Z) - A Non-monotonic Self-terminating Language Model [62.93465126911921]
本稿では,不完全復号アルゴリズムによる非終端列の問題に焦点をあてる。
まず、グリーディ探索、トップ$kのサンプリング、核サンプリングを含む不完全確率復号アルゴリズムを定義する。
次に,単調な終端確率の制約を緩和する非単調な自己終端言語モデルを提案する。
論文 参考訳(メタデータ) (2022-10-03T00:28:44Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Random Alloy Codes and the Fundamental Limits of Coded Distributed Tensors [1.8130068086063333]
ストラグラーや他の障害は、全体の完了時間に深刻な影響を与える可能性がある。
符号化コンピューティングにおける最近の研究は、コード化されたタスクでストラグラーを緩和するための新しい戦略を提供する。
この厳密な定義は、失敗の確率を直接最適化しないことを示す。
論文 参考訳(メタデータ) (2022-02-07T19:20:00Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。