論文の概要: Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs
- arxiv url: http://arxiv.org/abs/2605.11128v1
- Date: Mon, 11 May 2026 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.359501
- Title: Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs
- Title(参考訳): キャリブレーションはLLMの多様性の基盤である
- Authors: Amin Banayeeanzade, Qingchuan Yang, Dhruv Tarsadiya, Fatemeh Bahrani, Leonardo Blas, Alfy Samuel, Robin Jia, Meisam Razaviyayn, Sai Praneeth Karimireddy,
- Abstract要約: 本稿では,多様性の崩壊をLCMが復号時に確率質量を割り当てる方法に起因した妥当性多様性フレームワークを提案する。
局所的な障害はデコードステップにまたがって複雑であり、多様性に強いシーケンスレベルの損失をもたらすことを示す。
複数の家系と規模にまたがる14の言語モデルにおいて、多様性の崩壊は特定のサンプリングの制限ではなく、順序と形状の誤校正の結果であることがわかった。
- 参考スコア(独自算出の注目度): 32.92376056138306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity is essential for language-model applications ranging from creative generation to scientific discovery, yet modern LLMs often collapse into a narrow subset of plausible outputs. While prior work has developed benchmarks for measuring this lack of diversity, less is known about how the step-by-step probability distributions at inference time cause the problem. We introduce a validity--diversity framework that attributes diversity collapse to how an LLM allocates probability mass across valid and invalid continuations during decoding. This framework decomposes the bottleneck into two complementary forms of miscalibration. First, order calibration: valid tokens are not reliably ranked above invalid tokens, so rank-based cutoff rules must trade off between recovering valid continuations and admitting invalid ones. Second, shape calibration: probability mass is overly concentrated only on few valid continuations while having a heavy-tail of mixed valid and invalid tokens, so maintaining high validity limits diversity. We formalize both mechanisms and show that local failures compound across decoding steps, producing strong sequence-level losses in diversity. Empirically, we develop controlled diagnostics for probing these bottlenecks, including tasks with exactly known valid sets and oracle cutoff baselines. Across 14 language models spanning multiple families and scales, we find that diversity collapse is not merely a limitation of particular sampling heuristics, but a consequence of order and shape miscalibration in the LLM distribution.
- Abstract(参考訳): 多様性は創造的生成から科学的発見まで多岐にわたる言語モデルアプリケーションにとって不可欠であるが、現代のLLMは、しばしば可算出力の狭いサブセットに崩壊する。
これまでの研究では、多様性の欠如を測定するためのベンチマークが開発されていたが、推論時のステップ・バイ・ステップの確率分布がどのように問題を引き起こすかは分かっていない。
本稿では,多様性の崩壊をLCMが復号化時に有効かつ無効な継続にまたがって確率質量を割り当てる方法に起因する妥当性・多様性の枠組みを提案する。
このフレームワークはボトルネックを2つの相補的な誤校正形式に分解する。
まず、オーダーキャリブレーション:有効なトークンは無効トークンよりも確実にランク付けされないため、ランクベースのカットオフルールは、有効な継続の回復と無効トークンの承認の間でトレードオフされなければならない。
第二に、形状のキャリブレーション:確率質量は、有効かつ無効なトークンの重いテールを持ちながら、少数の有効継続にのみ過度に集中するので、高い妥当性の限界が維持される。
両方のメカニズムを形式化し、デコードステップにまたがる局所的な障害が複雑であることを示し、多様性のシーケンスレベルの損失を強く生み出す。
実証的に,有効なセットとオラクルカットオフベースラインを持つタスクを含む,これらのボトルネックを探索するための制御診断手法を開発した。
複数の家系と規模にまたがる14の言語モデルにおいて、多様性の崩壊は特定のサンプリングヒューリスティックスの制限ではなく、LLM分布の順序と形状の誤校正の結果であることがわかった。
関連論文リスト
- Unified Approach for Weakly Supervised Multicalibration [6.557328947642346]
マルチキャリブレーションでは、予測スコアは、豊富なサブグループのファミリーとスコアに依存したテストのラベル確率に一致するように要求される。
既存の手法では、評価と後処理のためにクリーンな入力ラベルペアが必要である。
弱い監督下での多重校正を推定・補正するための統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-05-11T01:30:09Z) - Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Low-Degree Multicalibration [16.99099840073075]
低Degree Multicalibration は、ますます強力なマルチグループフェアネスの概念の階層を定義する。
低次マルチキャリブレーションは完全マルチキャリブレーションよりもはるかに効率的であることを示す。
我々の研究は、低次多重校正がスイートスポット、ペアリング計算とサンプル効率を強い公正性と精度保証で表しているという説得力のある証拠を提示する。
論文 参考訳(メタデータ) (2022-03-02T17:24:55Z) - Sample Complexity of Uniform Convergence for Multicalibration [43.10452387619829]
多重校正誤差に対処し、予測誤差から分離する。
我々の研究は、多重校正誤差の統一収束保証のためのサンプル複雑性境界を与える。
論文 参考訳(メタデータ) (2020-05-04T18:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。