論文の概要: Toward Better Generalisation in Uncertainty Estimators: Leveraging Data-Agnostic Features
- arxiv url: http://arxiv.org/abs/2507.03998v1
- Date: Sat, 05 Jul 2025 10:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.965371
- Title: Toward Better Generalisation in Uncertainty Estimators: Leveraging Data-Agnostic Features
- Title(参考訳): 不確実性推定器の一般化に向けて:データに依存しない特徴を活用する
- Authors: Thuy An Ha, Bao Quoc Vo,
- Abstract要約: データに依存しない特徴と隠れ状態の特徴を組み合わせることで、ドメイン外性能が向上するかどうかを検討する。
実験結果から,データに依存しない機能の導入は一般的に一般化性能を高めるが,特定のシナリオでは性能が低下することが示唆された。
より詳細な分析では、訓練されたプローブが隠れ状態の特徴に対してデータに依存しない特徴を過小評価している場合があり、これが結果が決定できない主な理由であると考えている。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often generate responses that are factually incorrect yet expressed with high confidence, which can pose serious risks for end users. To address this, it is essential for LLMs not only to produce answers but also to provide accurate estimates of their correctness. Uncertainty quantification methods have been introduced to assess the quality of LLM outputs, with factual accuracy being a key aspect of that quality. Among these methods, those that leverage hidden states to train probes have shown particular promise, as these internal representations encode information relevant to the factuality of responses, making this approach the focus of this paper. However, the probe trained on the hidden states of one dataset often struggles to generalise to another dataset of a different task or domain. To address this limitation, we explore combining data-agnostic features with hidden-state features and assess whether this hybrid feature set enhances out-of-domain performance. We further examine whether selecting only the most informative hidden-state features, thereby discarding task-specific noise, enables the data-agnostic features to contribute more effectively. The experiment results indicate that although introducing data-agnostic features generally enhances generalisation performance in most cases, in certain scenarios their inclusion degrades performance. A similar pattern emerges when retaining only the most important hidden-state features - adding data-agnostic features does not consistently further enhance performance compared to using the full set of hidden-state features. A closer analysis reveals that, in some specific cases, the trained probe underweights the data-agnostic features relative to the hidden-state features, which we believe is the main reason why the results are inconclusive.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば、事実的に間違っているが高い信頼性で表現された応答を生成し、エンドユーザーにとって重大なリスクを生じさせる。
この問題に対処するためには、LSMが回答を生成するだけでなく、その正確さを正確に見積もることが不可欠である。
LLM出力の品質を評価するために不確実な定量化手法が導入されたが、その品質の重要な側面は事実的精度である。
これらの手法のうち、隠れ状態を利用して探究を訓練する者は、これらの内部表現が応答の事実性に関連する情報を符号化するなど、特定の可能性を示しており、このアプローチが本論文の焦点となっている。
しかしながら、あるデータセットの隠れ状態に基づいてトレーニングされたプローブは、異なるタスクやドメインの別のデータセットに一般化するのに苦労することが多い。
この制限に対処するために,データに依存しない特徴と隠れ状態の特徴を組み合わせることを検討し,このハイブリッド機能セットがドメイン外性能を向上させるかどうかを評価する。
さらに、最も情報に富む隠蔽状態の特徴のみを選択し、タスク固有のノイズを排除し、データに依存しない特徴をより効果的に寄与できるかどうかについても検討する。
実験結果から,データに依存しない機能の導入は一般的に一般化性能を高めるが,特定のシナリオでは性能が低下することが示唆された。
データに依存しない機能を追加することで、隠れた機能の完全なセットを使用する場合と比較して、パフォーマンスが継続的に向上することはない。
より詳細な分析では、訓練されたプローブが隠れ状態の特徴に対してデータに依存しない特徴を過小評価している場合があり、これが結果が決定できない主な理由であると考えている。
関連論文リスト
- SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition [8.950906917573986]
VLM(Vision-Language Models)は、分布内精度と分布外一般化のバランスをとるジレンマを示す。
近年の研究では、視覚属性などの低レベル概念を活用して一般化を高めている。
この研究は、VLMが、カテゴリと同一であるが本質的にはその一部ではないが、突発的に相関する属性である意思決定に、小さな属性のサブセットを過度に依存していることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T12:05:33Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Mitigating Distributional Shift in Semantic Segmentation via Uncertainty
Estimation from Unlabelled Data [19.000718685399935]
本研究では,1回のフォワードパスで追加のアノテーションを使わずに,テストドメインの挑戦によるエラーを検出するセグメンテーションネットワークを提案する。
我々は、データ拡張に対する一貫性を強制することによって、不確実性推定を選択的に行うことを学ぶために、簡単で不正確で不確実なデータを使用する。
提案手法はGamma-SSLと名付けられ,不確実性推定とOoD(Out-of-Distribution)技術より一貫して優れている。
論文 参考訳(メタデータ) (2024-02-27T16:23:11Z) - Cluster Metric Sensitivity to Irrelevant Features [0.0]
異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
以上の結果から,シルエット係数とデイビー=ボルディンスコアは,無関係な付加機能に対して最も敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-02-19T10:02:00Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。