論文の概要: A Unified Evaluation Framework for Multi-Annotator Tendency Learning
- arxiv url: http://arxiv.org/abs/2508.10393v1
- Date: Thu, 14 Aug 2025 06:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.205602
- Title: A Unified Evaluation Framework for Multi-Annotator Tendency Learning
- Title(参考訳): マルチアノテーション傾向学習のための統一評価フレームワーク
- Authors: Liyun Zhang, Jingcheng Ke, Shenli Fan, Xuanmeng Sha, Zheng Lian,
- Abstract要約: 2つの新しい指標を持つ最初の統合評価フレームワークを提案する。
DIC(Inter-Annotator Consistency)の違いは、モデルがアノテータの傾向をいかに捉えるかを示す。
振る舞いアライメント説明可能性(BAE)は、モデル説明がアノテータの振る舞いと意思決定の関連性をうまく反映しているかを評価する。
- 参考スコア(独自算出の注目度): 6.801084054135531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have emerged in multi-annotator learning that shift focus from Consensus-oriented Learning (CoL), which aggregates multiple annotations into a single ground-truth prediction, to Individual Tendency Learning (ITL), which models annotator-specific labeling behavior patterns (i.e., tendency) to provide explanation analysis for understanding annotator decisions. However, no evaluation framework currently exists to assess whether ITL methods truly capture individual tendencies and provide meaningful behavioral explanations. To address this gap, we propose the first unified evaluation framework with two novel metrics: (1) Difference of Inter-annotator Consistency (DIC) quantifies how well models capture annotator tendencies by comparing predicted inter-annotator similarity structures with ground-truth; (2) Behavior Alignment Explainability (BAE) evaluates how well model explanations reflect annotator behavior and decision relevance by aligning explainability-derived with ground-truth labeling similarity structures via Multidimensional Scaling (MDS). Extensive experiments validate the effectiveness of our proposed evaluation framework.
- Abstract(参考訳): 近年のマルチアノテータ学習において、複数のアノテーションを1つの接地構造予測に集約するコンセンサス指向学習(CoL)から、アノテータ固有のラベリング行動パターン(すなわち傾向)をモデル化し、アノテータ決定を理解するための説明分析を提供する個別傾向学習(ITL)へと焦点を移している。
しかし、IDL法が実際に個人の傾向を捉え、意味のある行動説明を提供するかどうかを評価するための評価枠組みは今のところ存在しない。
このギャップを解消するために,本研究では,(1)アノテータ間整合性(DIC)の差分が,予測されたアノテータ間類似性構造と接地構造とを比較することによって,アノテータの傾向をいかに捉えるか,(2) ビヘイビアアライメント説明可能性(BAE)は,多次元スケーリング(MDS)を介して,アノテータ間類似性構造と説明可能性に基づく類似性構造との整合によって,アノテータの振舞いと決定関連性をよく反映するかを評価する。
大規模実験により,提案手法の有効性が検証された。
関連論文リスト
- QuMAB: Query-based Multi-Annotator Behavior Modeling with Reliability under Sparse Labels [23.555446749682467]
マルチアノテーション学習は伝統的に、様々なアノテーションを集約して単一の真実を近似し、不一致をノイズとして扱う。
本稿では,サンプル・ワイド・アグリゲーションからアノテータ・ワイド・ビヘイビア・モデリングへのパラダイムシフトを紹介する。
アノテータの不一致をノイズではなく貴重な情報として扱うことにより、アノテータ固有の行動パターンをモデル化することで、未ラベルデータを再構築してアノテーションコストを低減し、集約信頼性を高め、アノテータの決定動作を説明することができる。
論文 参考訳(メタデータ) (2025-07-23T16:17:43Z) - Rethinking Robustness in Machine Learning: A Posterior Agreement Approach [45.284633306624634]
モデル検証の後方合意(PA)理論は、ロバストネス評価のための原則的な枠組みを提供する。
本稿では,PA尺度が学習アルゴリズムの脆弱性を,ほとんど観測されていない場合でも,合理的かつ一貫した分析を提供することを示す。
論文 参考訳(メタデータ) (2025-03-20T16:03:39Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。