論文の概要: Decoding-Free Sampling Strategies for LLM Marginalization
- arxiv url: http://arxiv.org/abs/2510.20208v1
- Date: Thu, 23 Oct 2025 04:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.337504
- Title: Decoding-Free Sampling Strategies for LLM Marginalization
- Title(参考訳): LLMマージナイズのためのデコードフリーサンプリング手法
- Authors: David Pohl, Marco Cognetta, Junyoung Lee, Naoaki Okazaki,
- Abstract要約: 現代の言語モデルは、モデルサイズ、推論速度、語彙カバレッジの間のトレードオフを実現するために、サブワードトークン化されたテキストで機能する。
我々はデコード不要なサンプリング戦略について検討し、その代わりにモデルやトークン化ツールに依存しない非常に安価なサンプリング戦略に完全に依存する。
- 参考スコア(独自算出の注目度): 15.214953630908477
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern language models operate on subword-tokenized text in order to make a trade-off between model size, inference speed, and vocabulary coverage. A side effect of this is that, during inference, models are evaluated by measuring the probability of only the specific tokenization produced as the output, despite there being many possible ways to represent the same text with a subword vocabulary. Recent studies have argued instead for evaluating LLMs by marginalization - the probability mass of all tokenizations of a given text. Marginalization is difficult due to the number of possible tokenizations of a text, so often approximate marginalization is done via sampling. However, a downside of sampling is that an expensive generation step must be performed by the LLM for each sample, which limits the number of samples that can be acquired given a runtime budget, and therefore also the accuracy of the approximation. Since computing the probability of a sequence given the tokenization is relatively cheap compared to actually generating it, we investigate sampling strategies that are decoding-free - they require no generation from the LLM, instead relying entirely on extremely cheap sampling strategies that are model and tokenizer agnostic. We investigate the approximation quality and speed of decoding-free sampling strategies for a number of open models to find that they provide sufficiently accurate marginal estimates at a small fraction of the runtime cost and demonstrate its use on a set of downstream inference tasks.
- Abstract(参考訳): 現代の言語モデルは、モデルサイズ、推論速度、語彙カバレッジの間のトレードオフを実現するために、サブワードトークン化されたテキストで機能する。
これの副作用は、推論の間、サブワード語彙で同じテキストを表現する多くの方法があるにもかかわらず、モデルが出力として生成された特定のトークン化のみの確率を測定することによって評価されることである。
近年の研究は、あるテキストの全てのトークン化の確率質量である余分化によるLSMの評価に代えて議論している。
テキストのトークン化が可能であるため、マージナリゼーションは難しいため、サンプリングによって近似されたマージナリゼーションが行われることが多い。
しかし、サンプリングの欠点は、各サンプルに対して高価な生成ステップをLCMで実行し、ランタイム予算によって取得できるサンプルの数を制限することであり、したがって近似の正確性も制限する。
トークン化を与えられたシーケンスの確率は実際に生成するよりも比較的安価であるため、デコード不要なサンプリング戦略を調査する。
本研究では,多数のオープンモデルに対するデコードフリーサンプリング戦略の近似品質と高速化について検討し,実行時コストのごく一部で十分な精度の限界推定を行い,下流の推論タスクでの利用を実証する。
関連論文リスト
- LLM-ERM: Sample-Efficient Program Learning via LLM-Guided Search [23.97383442759484]
LLM-ERM は、全列挙を LLM 誘導探索に置き換える提案と検証のフレームワークである。
コーディネート的にオンラインのミニバッチSGDは,特定のショートプログラムを学習するために多くのサンプルを必要とすることを示す。
これらの結果は,言語誘導型プログラム合成が有限クラスEMMの統計効率の多くを回復することを示している。
論文 参考訳(メタデータ) (2025-10-16T06:10:11Z) - p-less Sampling: A Robust Hyperparameter-Free Approach for LLM Decoding [10.595336643423229]
$p$-less サンプリングは、サンプリングに対する情報理論のアプローチである。
トークン確率分布全体に基づいて、各復号ステップでトラクション閾値を動的に設定する。
温度が上昇するにつれて、常に高品質な出力を生成する。
論文 参考訳(メタデータ) (2025-09-27T10:33:41Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Quasi-random Multi-Sample Inference for Large Language Models [1.647759094903376]
大規模言語モデル(LLM)は、しばしばマルチサンプルデコード戦略を備えている。
ビームサーチやサンプリングベース技術のような従来のテキスト生成手法には、顕著な制限がある。
本研究では,算術的サンプリングの可能性について検討し,祖先的サンプリングと対比する。
論文 参考訳(メタデータ) (2024-11-09T18:55:04Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [3.631341123338476]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
本稿では,トップトークンの確率をスケーリング係数として利用して,モデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション手法であるmin-pサンプリングを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:37:25Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。