論文の概要: Sensitivity Uncertainty Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.20903v1
- Date: Tue, 21 Apr 2026 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.080104
- Title: Sensitivity Uncertainty Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおける感性不確実性アライメント
- Authors: Prakul Sunil Hiremath, Harshit R. Hiremath,
- Abstract要約: 逆入力およびあいまい入力下での大規模言語モデルの故障を解析するためのフレームワークを提案する。
我々はスカラースコア SUA_theta(x) を定義し、分布感度と予測エントロピーの差を捉える。
我々は,一貫性の正則化とエントロピーアライメントを組み合わせたトレーニング手法SUA-TRと,より安全な推論のための禁制ルールを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Sensitivity-Uncertainty Alignment (SUA), a framework for analyzing failures of large language models under adversarial and ambiguous inputs. We argue that adversarial sensitivity and ambiguity reflect a common issue: misalignment between prediction instability and model uncertainty. A reliable model should express higher uncertainty when its predictions are unstable; failure to do so leads to miscalibration. We define a scalar score, SUA_theta(x), capturing the difference between distributional sensitivity and predictive entropy. We show that minimizing its positive part bounds worst-case perturbed risk and relates to calibration error. We also formalize ambiguity collapse, where models produce overconfident outputs despite multiple valid interpretations. We introduce SUA-TR, a training method combining consistency regularization and entropy alignment, along with an abstention rule for safer inference. Across tasks including question answering and classification, SUA better identifies model failures than entropy or self-consistency alone. The framework is model-agnostic and provides a basis for improving reliability in evolving language models.
- Abstract(参考訳): 本研究では,大言語モデルの逆入力および曖昧入力における故障を解析するフレームワークである感性不確実性アライメント(SUA)を提案する。
我々は、敵の感度と曖昧さが共通の問題、すなわち予測不安定性とモデル不確かさの相違を反映していると主張している。
信頼性のあるモデルは、予測が不安定なときに高い不確実性を表現すべきである。
我々はスカラースコア SUA_theta(x) を定義し、分布感度と予測エントロピーの差を捉える。
また, その正の部分を最小化することは, 最悪の場合の摂動リスクと相関し, 校正誤差に関係していることを示す。
また、複数の有効な解釈にもかかわらず、モデルが過信出力を生成するあいまいさの崩壊を形式化する。
我々は,一貫性の正則化とエントロピーアライメントを組み合わせたトレーニング手法SUA-TRと,より安全な推論のための禁制ルールを導入する。
質問応答や分類を含むタスク全体において、SUAはエントロピーや自己整合性のみよりもモデル失敗を明確にする。
このフレームワークはモデルに依存しず、進化する言語モデルの信頼性を向上させる基盤を提供する。
関連論文リスト
- CUPID: A Plug-in Framework for Joint Aleatoric and Epistemic Uncertainty Estimation with a Single Model [1.6855257501750571]
CUPID (Comprehensive Uncertainty Plug-in estImation moDel) は、ベースモデルの変更や再訓練なしに、動脈とてんかんの不確実性を共同で推定する汎用モジュールである。
CUPIDは分類,回帰,アウト・オブ・ディストリビューション検出など,様々なタスクで評価される。
その結果、CUPIDは、不確実性の起源に関する階層的な洞察を提供しながら、一貫して競争性能を提供することがわかった。
論文 参考訳(メタデータ) (2026-03-11T13:18:10Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Decision-Aware Trust Signal Alignment for SOC Alert Triage [0.0]
本稿では,SOC警告トリアージの信頼信号対応方式を提案する。
このフレームワークは、調整済みの信頼性、軽量不確実性、そしてコストに敏感な決定しきい値をコヒーレントな決定支持層に組み合わせている。
信頼度が不一致な表示によって偽陰性が大幅に増幅されるのに対し、コスト重み付き損失は決定整合信頼信号を持つモデル間での桁違いに減少することを示す。
論文 参考訳(メタデータ) (2026-01-08T01:41:54Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。