論文の概要: Reading Calibrated Uncertainty from Language Model Trajectories
- arxiv url: http://arxiv.org/abs/2605.22864v1
- Date: Tue, 19 May 2026 19:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.005678
- Title: Reading Calibrated Uncertainty from Language Model Trajectories
- Title(参考訳): 言語モデル軌道からの校正不確かさを読み取る
- Authors: Aliai Eusebi, Alexander Herzog, Xiaoyu Liang, Marie Vasek, Enrico Mariconti, Lorenzo Cavallaro,
- Abstract要約: モデルの内部アクティベーションを調査する手法は、生の隠れた状態を不透明なスナップショットにフィードし、表現が形成される層回りの軌跡を暗黙的に残す。
我々は11のスケール不変な幾何学的特徴を抽出し、層ごとの更新の累積経路をトレースし、それらをスパース線形プローブに供給する。
このプローブは、最大21のAURCポイントでベースラインスケーリングを行い、選択的な棄権下でMPPより優れる。
- 参考スコア(独自算出の注目度): 46.663987199083245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The maximum softmax probability (MSP) represents a default approach when evaluating uncertainty quantification for language model generation with structured output. Although cheap, it is often miscalibrated. Methods that probe the model's internal activations feed raw hidden states into opaque classifiers, reading activations as static snapshots and leaving implicit the layer-wise trajectory by which a representation is formed. Yet, similar endpoints can arise from very different paths, and how evidence accumulates, reinforces, or reverses across depth might reveal uncertainty that final probabilities obscure. We extract eleven scale-invariant geometric features, tracing the cumulative path of per-layer MLP updates, and feed them to a sparse linear probe. The probe outperforms MSP under selective abstention, with gains scaling with baseline miscalibration up to 21 AURC points. Because every feature has a closed-form geometric meaning, the probe's coefficients trace how and where along depth errors take shape -- which layers commit prematurely, which contradict the running state, where trajectories drift away from their endpoint.
- Abstract(参考訳): 最大ソフトマックス確率(MSP)は、構造化された出力を持つ言語モデル生成のための不確実性定量化を評価する際のデフォルトのアプローチを表す。
安いが、しばしば誤解される。
モデルの内部アクティベーションを調査する手法は、生の隠された状態を不透明な分類器に供給し、アクティベーションを静的スナップショットとして読み出し、表現が形成されるレイヤワイドな軌道を暗黙的に残す。
しかし、類似の終端は、非常に異なる経路から生じ、どのように証拠が蓄積し、補強し、奥行きを逆転するかによって、最終的な確率が不明瞭になる可能性がある。
我々は11のスケール不変な幾何学的特徴を抽出し、層ごとのMLP更新の累積経路をトレースし、それらをスパース線形プローブに供給する。
プローブは選択的な棄権下でMSPより優れ、ベースラインの誤校正により21AURCポイントまでスケールする。
全ての特徴が閉じた形状の幾何学的意味を持つため、プローブの係数は、どの層が早期にコミットし、軌道が終端から遠ざかっている状態と矛盾するかを辿る。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Inference Time Causal Probing in LLMs [26.69306706280534]
因果探索において、介入は、プロパティが異なる値を取るように隠された状態を変更する。
隠れ状態を直接制御するプローブレス勾配法であるHidden-state Driven Margin Intervention (HDMI)を提案する。
HDMIはLGD契約コーパスやCausalGymベンチマークの従来の方法よりも信頼性が高い。
論文 参考訳(メタデータ) (2026-05-08T11:59:13Z) - UnGAP: Uncertainty-Guided Affine Prompting for Real-Time Crack Segmentation [16.902729686979303]
UPFM(Uncertainty-Prompted Feature Modulator)は、単に出力ではなく、アクティブな視覚的プロンプトとして、アレタリック不確実性を扱う。
UnGAPは、より優れたセグメンテーション精度とリアルタイムの推論速度のバランスをとる。
論文 参考訳(メタデータ) (2026-05-04T09:18:57Z) - Semantic Step Prediction: Multi-Step Latent Forecasting in LLM Reasoning Trajectories via Step Sampling [0.0]
セマンティックチューブ予測(STP)は、幾何学的表現を利用して、微調整中に隠れた軌道を局所線型測地線に向けて規則化する。
サンプリング位置が多段階推論のセマンティック構造をさらに強化できるかどうかを検討する。
その結果, サンプリング位置を幾何正則化における臨界変数として同定し, この手法の新たな評価基準として多段階潜時予測MSEを確立した。
論文 参考訳(メタデータ) (2026-04-20T16:19:02Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Probabilistic Skip Connections for Deterministic Uncertainty Quantification in Deep Neural Networks [2.186901738997927]
現在の決定論的手法は、しばしばスペクトル正規化を伴うネットワークを再訓練する。
本稿では,神経崩壊の指標を用いて,感覚的かつスムーズな既存の中間層を特定することを提案する。
次に、この中間層の特徴ベクトルに確率モデルを適用し、確率スキップ接続(PSC)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-08T20:12:33Z) - Uncertainty-aware retinal layer segmentation in OCT through probabilistic signed distance functions [6.765624289092461]
オプティカルコヒーレンス・トモグラフィー(OCT)スキャンにおける不確実性認識網膜層セグメンテーションの新しいアプローチを提案する。
本手法は、レベルセットを介して網膜層形状を効果的にパラメータ化する符号付き距離関数(SDF)を予測することにより、セグメンテーションを洗練する。
これにより、あいまいな入力、撮像ノイズ、信頼できないセグメンテーションが存在する場合でも、網膜層の堅牢な表現が保証される。
論文 参考訳(メタデータ) (2024-12-06T10:44:11Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Robust Depth Completion with Uncertainty-Driven Loss Functions [60.9237639890582]
本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。
提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSEの計測値を用いて最先端のロバスト性性能を達成した。
論文 参考訳(メタデータ) (2021-12-15T05:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。