論文の概要: Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation
- arxiv url: http://arxiv.org/abs/2604.11662v1
- Date: Mon, 13 Apr 2026 16:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.670442
- Title: Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation
- Title(参考訳): ロバストネスの隠れた失敗:なぜ監視された不確かさの定量化がより良い評価を必要とするのか
- Authors: Joe Stacey, Hadas Orgad, Kentaro Inui, Benjamin Heinzerling, Nafise Sadat Moosavi,
- Abstract要約: 近年の研究では、大規模言語モデルの隠れ状態には不確実性推定や幻覚検出に有用な信号が含まれていることが示されている。
しかし、既存の手法がどれほど堅牢か、どのプローブ設計が分布シフトの下で信頼性のある不確実性推定を提供するのかは、まだ不明である。
本研究では,モデル,タスク,OOD設定にまたがる教師付き不確実性プローブの体系的研究を行い,2000以上のプローブをトレーニングし,表現層,特徴型,トークン集約戦略を変化させる。
- 参考スコア(独自算出の注目度): 40.069986955093526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that the hidden states of large language models contain signals useful for uncertainty estimation and hallucination detection, motivating a growing interest in efficient probe-based approaches. Yet it remains unclear how robust existing methods are, and which probe designs provide uncertainty estimates that are reliable under distribution shift. We present a systematic study of supervised uncertainty probes across models, tasks, and OOD settings, training over 2,000 probes while varying the representation layer, feature type, and token aggregation strategy. Our evaluation highlights poor robustness in current methods, particularly in the case of long-form generations. We also find that probe robustness is driven less by architecture and more by the probe inputs. Middle-layer representations generalise more reliably than final-layer hidden states, and aggregating across response tokens is consistently more robust than relying on single-token features. These differences are often largely invisible in-distribution but become more important under distribution shift. Informed by our evaluation, we explore a simple hybrid back-off strategy for improving robustness, arguing that better evaluation is a prerequisite for building more robust probes.
- Abstract(参考訳): 近年の研究では、大規模言語モデルの隠れ状態には不確実性推定や幻覚検出に有用な信号が含まれており、効率的なプローブベースのアプローチへの関心が高まっていることが示されている。
しかし、既存の手法がどれほど堅牢か、どのプローブ設計が分布シフトの下で信頼性のある不確実性推定を提供するのかは、まだ不明である。
本研究では,モデル,タスク,OOD設定にまたがる教師付き不確実性プローブの体系的研究を行い,2000以上のプローブをトレーニングし,表現層,特徴型,トークン集約戦略を変化させる。
我々の評価は、特に長大な世代において、現在の手法におけるロバスト性に重点を置いている。
また、プローブのロバスト性は、アーキテクチャによってもより促進され、プローブ入力によってもより促進される。
中層表現は、最終層隠蔽状態よりも確実に一般化し、応答トークンをまたぐ集約は、シングルトークン機能に依存するよりも一貫して堅牢である。
これらの違いは、主に分布において見えないが、分布シフトによってより重要になる。
評価の結果から,ロバスト性向上のための単純なハイブリッドバックオフ戦略を探究し,よりロバストなプローブを構築する上で,より良い評価が前提条件であると主張した。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。
凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。
トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文 参考訳(メタデータ) (2025-11-27T14:01:50Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Interpretable Failure Detection with Human-Level Concepts [9.086637005449672]
この研究は、モデルが失敗したときを確実に検出し、理由を透過的に解釈する、という、2つの目的のために人間レベルの概念を活用する革新的な戦略を導入している。
入力画像に対する概念アクティベーションの順序付けに基づく簡易かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:19:40Z) - Reliability in Semantic Segmentation: Are We on the Right Track? [15.0189654919665]
我々は、古いResNetベースのアーキテクチャから新しいトランスフォーマーまで、さまざまなモデルを分析します。
近年のモデルでは, 信頼性は著しく高いが, 不確実性評価の点では, 全体として信頼性は高くない。
これは、ロバストネスと不確実性推定の両方に焦点を当てた現代のセグメンテーションモデルに関する最初の研究である。
論文 参考訳(メタデータ) (2023-03-20T17:38:24Z) - How Reliable is Your Regression Model's Uncertainty Under Real-World
Distribution Shifts? [46.05502630457458]
本研究では,異なるタイプの分散シフトを伴う8つの画像ベース回帰データセットのベンチマークを提案する。
分散シフトがない場合、メソッドは十分に校正されているが、ベンチマークデータセットの多くに非常に自信が持たれていることが分かっています。
論文 参考訳(メタデータ) (2023-02-07T18:54:39Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。