論文の概要: Mapping from Meaning: Addressing the Miscalibration of Prompt-Sensitive Language Models
- arxiv url: http://arxiv.org/abs/2510.17028v1
- Date: Sun, 19 Oct 2025 22:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.25521
- Title: Mapping from Meaning: Addressing the Miscalibration of Prompt-Sensitive Language Models
- Title(参考訳): 意味からのマッピング: プロンプト感性言語モデルのミススキャリブレーションに対処する
- Authors: Kyle Cox, Jiawei Xu, Yikun Han, Rong Xu, Tianhao Li, Chi-Yang Hsu, Tianlong Chen, Walter Gerych, Ying Ding,
- Abstract要約: 大規模言語モデル(LLM)における即時感度について検討する。
パラフレージング摂動による「意味概念空間のサンプリング」は、精度を損なうことなく不確実性校正を改善することを示す。
- 参考スコア(独自算出の注目度): 39.05891782057066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An interesting behavior in large language models (LLMs) is prompt sensitivity. When provided with different but semantically equivalent versions of the same prompt, models may produce very different distributions of answers. This suggests that the uncertainty reflected in a model's output distribution for one prompt may not reflect the model's uncertainty about the meaning of the prompt. We model prompt sensitivity as a type of generalization error, and show that sampling across the semantic ``concept space'' with paraphrasing perturbations improves uncertainty calibration without compromising accuracy. Additionally, we introduce a new metric for uncertainty decomposition in black-box LLMs that improves upon entropy-based decomposition by modeling semantic continuities in natural language generation. We show that this decomposition metric can be used to quantify how much LLM uncertainty is attributed to prompt sensitivity. Our work introduces a new way to improve uncertainty calibration in prompt-sensitive language models, and provides evidence that some LLMs fail to exhibit consistent general reasoning about the meanings of their inputs.
- Abstract(参考訳): 大きな言語モデル(LLM)の興味深い振る舞いは、迅速な感度である。
同じプロンプトの異なる意味論的に等価なバージョンが提供されると、モデルは答えの分布を全く異なるものにすることができる。
これは、あるプロンプトに対するモデルの出力分布に反映される不確実性は、そのプロンプトの意味に関するモデルの不確実性を反映していないことを示唆している。
一般化誤差の一種としてアクセシブ感度をモデル化し、パラフレーズ摂動による「概念空間」をサンプリングすることで、精度を損なうことなく不確実性校正を改善することを示す。
さらに,自然言語生成における意味的連続性をモデル化することにより,エントロピーに基づく分解を改善するブラックボックスLLMにおける不確実性分解のための新しい指標を提案する。
本研究では, この分解測定値を用いて, LLMの不確かさがどの程度の感度に寄与しているかを定量化できることを示す。
本研究は,アクシデント感性言語モデルにおける不確実性校正を改善する新しい手法を導入し,入力の意味について一貫した一般的な推論を示さないLLMが存在することを示す。
関連論文リスト
- Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。