論文の概要: Control the Temperature: Selective Sampling for Diverse and High-Quality LLM Outputs
- arxiv url: http://arxiv.org/abs/2510.01218v1
- Date: Sat, 20 Sep 2025 15:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.844376
- Title: Control the Temperature: Selective Sampling for Diverse and High-Quality LLM Outputs
- Title(参考訳): 温度制御:多変量および高品質LCM出力の選択的サンプリング
- Authors: Sergey Troshin, Wafaa Mohammed, Yan Meng, Christof Monz, Antske Fokkens, Vlad Niculae,
- Abstract要約: 温度に基づくサンプリングは多様性を高めるための一般的な戦略である。
しかし、例えば min-$p$ や top-$p$ のような制御されていない高温サンプリングは推論品質を低下させる。
そこで本研究では,高温サンプリングとグリーディを切り替える方法であるtextbfselective sampleを提案する。
- 参考スコア(独自算出の注目度): 26.477037145228735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diversity is an essential metric for evaluating the creativity of outputs generated by language models. Temperature-based sampling is a common strategy to increase diversity. However, for tasks that require high precision, e.g., mathematical reasoning, uncontrolled high temperature sampling, e.g., min-$p$ or top-$p$, degrades reasoning quality. We demonstrate that the loss of accuracy is caused by sampling incorrect continuations in sensitive decoding positions. To address this, in this paper, we propose \textbf{selective sampling}, a method that dynamically switches between greedy and high-temperature sampling based on a sampling risk metric. This risk metric estimates the likelihood of output errors when applying high-temperature sampling on the current token position. To predict sampling risk, we train a lightweight classifier on a small subset of verifiable problems. The trained classifier can be integrated with the base language model with minimal latency overhead. Experiments on mathematical reasoning tasks demonstrate that selective sampling enhances the quality-diversity trade-off, even in high-temperature settings.
- Abstract(参考訳): 多様性は、言語モデルによって生成されたアウトプットの創造性を評価するために不可欠な指標である。
温度に基づくサンプリングは多様性を高めるための一般的な戦略である。
しかし、高い精度を必要とするタスク、例えば、数学的推論、制御されていない高温サンプリング、eg、min-$p$またはトップ-$p$は、推論品質を劣化させる。
精度の低下は、機密復号位置における誤った継続をサンプリングすることによって生じることを示す。
そこで,本稿では,サンプリングリスク測定値に基づいて,グリーディと高温サンプリングを動的に切り替える手法である「textbf{selective sample}」を提案する。
このリスクメータは、現在のトークン位置に高温サンプリングを適用する際の出力誤差の可能性を推定する。
サンプリングリスクを予測するため、検証可能な問題の小さなサブセット上で軽量な分類器を訓練する。
トレーニングされた分類器は、最小遅延オーバーヘッドでベース言語モデルに統合できる。
数学的推論タスクの実験では、高温条件下であっても、選択的サンプリングによって品質と多様性のトレードオフが促進されることが示されている。
関連論文リスト
- $p$-less Sampling: A Robust Hyperparameter-Free Approach for LLM Decoding [10.595336643423229]
$p$-less サンプリングは、サンプリングに対する情報理論のアプローチであり、各デコードステップでトランケーション閾値を動的に設定する。
p$-lessが既存のサンプリング手法を一貫して上回りながら、より高い温度でテキスト品質の劣化がはるかに少ないことを示す。
論文 参考訳(メタデータ) (2025-09-27T10:33:41Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [3.631341123338476]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
本稿では,トップトークンの確率をスケーリング係数として利用して,モデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション手法であるmin-pサンプリングを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:37:25Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。