論文の概要: Quantifying Ambiguity in Categorical Annotations: A Measure and Statistical Inference Framework
- arxiv url: http://arxiv.org/abs/2510.04366v1
- Date: Sun, 05 Oct 2025 21:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.607419
- Title: Quantifying Ambiguity in Categorical Annotations: A Measure and Statistical Inference Framework
- Title(参考訳): カテゴリーアノテーションにおけるあいまいさの定量化:測度と統計的推論の枠組み
- Authors: Christopher Klugmann, Daniel Kondermann,
- Abstract要約: 本稿では,離散応答分布を単位間隔でスカラーにマッピングするあいまいさ尺度を提案する。
本研究では,この尺度の形式的特性を分析し,その振る舞いを文献から代表的あいまい度尺度と対比する。
- 参考スコア(独自算出の注目度): 0.7180881562002392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-generated categorical annotations frequently produce empirical response distributions (soft labels) that reflect ambiguity rather than simple annotator error. We introduce an ambiguity measure that maps a discrete response distribution to a scalar in the unit interval, designed to quantify aleatoric uncertainty in categorical tasks. The measure bears a close relationship to quadratic entropy (Gini-style impurity) but departs from those indices by treating an explicit "can't solve" category asymmetrically, thereby separating uncertainty arising from class-level indistinguishability from uncertainty due to explicit unresolvability. We analyze the measure's formal properties and contrast its behavior with a representative ambiguity measure from the literature. Moving beyond description, we develop statistical tools for inference: we propose frequentist point estimators for population ambiguity and derive the Bayesian posterior over ambiguity induced by Dirichlet priors on the underlying probability vector, providing a principled account of epistemic uncertainty. Numerical examples illustrate estimation, calibration, and practical use for dataset-quality assessment and downstream machine-learning workflows.
- Abstract(参考訳): 人間生成の分類的アノテーションは、単純なアノテータエラーではなくあいまいさを反映した経験的応答分布(ソフトラベル)をしばしば生成する。
本稿では,離散応答分布を単位間隔でスカラーにマッピングするあいまいさ尺度を提案する。
この測度は二次エントロピー(ジーニ型不純物)と密接な関係を持つが、明示的な「解決できない」圏を非対称に扱うことにより、明示的な未解決性によるクラスレベルの不明瞭性から生じる不確実性を切り離すことによって、これらの指標から逸脱する。
本研究では,この尺度の形式的特性を分析し,その振る舞いを文献から代表的あいまい度尺度と対比する。
人口のあいまいさに対する頻繁な点推定器を提案し、ディリクレによるあいまいさよりもベイズ的後方推定器を基礎となる確率ベクトルに基づいて導出し、疫学的不確実性の原理的な説明を提供する。
数値的な例では、データセットの品質評価や下流の機械学習ワークフローの見積もり、校正、実践的利用が説明されている。
関連論文リスト
- Uncertainty Estimation using Variance-Gated Distributions [0.6340400318304492]
クラス確率分布の信号対雑音比に基づく不確実性推定と分解のための直感的なフレームワークを提案する。
本稿では,アンサンブルから導かれる信頼因子による予測をスケールする分散化指標を提案する。
論文 参考訳(メタデータ) (2025-09-07T16:19:21Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Understanding Uncertainty Sampling [7.32527270949303]
不確実性サンプリングは、データサンプルのアノテーションを逐次クエリする一般的なアクティブラーニングアルゴリズムである。
使用済みの不確実性尺度と元の損失関数に依存する等価損失の概念を提案する。
ストリームベースとプールベースの両方の設定下で、不確実性サンプリングアルゴリズムに拘束される最初の一般化を提供する。
論文 参考訳(メタデータ) (2023-07-06T01:57:37Z) - Doubly Robust Counterfactual Classification [1.8907108368038217]
本研究では,仮説的(事実とは対照的に)なシナリオ下での意思決定のための新しいツールとして,カウンターファクトの分類について検討する。
本稿では, 一般対物分類器のための2次ロバストな非パラメトリック推定器を提案する。
論文 参考訳(メタデータ) (2023-01-15T22:04:46Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。
正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。
カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文 参考訳(メタデータ) (2020-05-20T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。