論文の概要: Beyond Black-Box Labels: Interpretable Criteria for Diagnosing SubjectiveNLP Tasks
- arxiv url: http://arxiv.org/abs/2604.17022v1
- Date: Sat, 18 Apr 2026 15:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.29349
- Title: Beyond Black-Box Labels: Interpretable Criteria for Diagnosing SubjectiveNLP Tasks
- Title(参考訳): ブラックボックスラベルを超えて:主観的NLPタスクの診断のための解釈基準
- Authors: Nisrine Rair, Alban Goupil, Valeriu Vrabie, Emmanuel Chochoy,
- Abstract要約: 本稿では,専門家が設計したアノテーションスキーマを監査するためのEmphschemaレベル診断法を提案する。
診断は2つの障害モードを分離する: 不安定な条件と操作の難しい境界、および相互排他的カテゴリの境界を曖昧にする体系的な重複。
これらのシグナルは、ドメインの専門家が同意しない場所と一致し、ガイドラインの締め付け、カテゴリ構造の変更、あるいはアノテーションパラダイムの再検討のためのエビデンスベースの監査を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subjective NLP datasets typically aggregate annotator judgments into a single gold label, making it difficult to diagnose whether disagreement reflects unclear criteria, collapsed distinctions, or legitimate plurality. We propose a \emph{schema-level diagnostic} for auditing expert-designed annotation schemas \emph{prior to} gold-label commitment, using only multi-annotator criterion judgments. The diagnostic separates two failure modes: unstable criteria with hard-to-operationalize boundaries, and systematic overlap that blurs the boundaries between mutually exclusive categories. Applied to persuasive value extraction in commercial documents, we find that disagreement is not diffuse: instability concentrates in a few criteria, while nearly half of covered sentences activate multiple categories. These signals align with where domain experts disagree, yielding an evidence-based audit for tightening guidelines, revising category structure, or reconsidering the annotation paradigm.
- Abstract(参考訳): 主観的NLPデータセットは通常、アノテータの判断を単一のゴールドラベルに集約する。
専門家が設計したアノテーションスキーマを監査するための「emph{schema-level diagnosis」を提案する。
診断は2つの障害モードを分離する: 不安定な条件と操作の難しい境界、および相互排他的カテゴリの境界を曖昧にする体系的な重複。
商業文書における説得的価値抽出に応用すると,不一致は拡散しない:不安定性はいくつかの基準に集中し,カバーされた文の半分近くは複数のカテゴリを活性化する。
これらのシグナルは、ドメインの専門家が同意しない場所と一致し、ガイドラインの締め付け、カテゴリ構造の変更、あるいはアノテーションパラダイムの再検討のためのエビデンスベースの監査を得る。
関連論文リスト
- xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection [2.647843453311735]
我々は、ヘイトスピーチ検出を明示的な概念レベルの質問のチェックリストに分解する診断フレームワークであるxList-Hateを紹介する。
診断信号は軽量で完全に解釈可能な決定木で集約され、透明で監査可能な予測が得られる。
以上の結果から,モノリシックな分類問題ではなく,診断的理由づけタスクとしてヘイトスピーチの検出をリフレーミングすることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T16:51:56Z) - Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following [99.20581206115979]
Multi-Crit は、マルチモーダルな審査員が複数の基準に従い、信頼できる基準レベルの判断を下す能力を評価するためのベンチマークである。
25 LMMの包括的分析から,1) プロプライエタリなモデルは,(特にオープンエンド評価において) 多元的基準への一貫した従順性を維持するのに苦慮している,2) オープンソースのモデルは,様々な基準に柔軟に遅れている,3) 全体論的判断信号による批判的微調整は,視覚的根拠を高めるが,多元的基準レベルの判断に一般化することができない,などが分かる。
論文 参考訳(メタデータ) (2025-11-26T18:35:17Z) - CLASH: A Benchmark for Cross-Modal Contradiction Detection [15.134491772506196]
CLASHはマルチモーダル矛盾検出のための新しいベンチマークである。
COCOイメージは、制御対象レベルの矛盾や属性レベルの矛盾を含む矛盾したキャプションと組み合わせられる。
論文 参考訳(メタデータ) (2025-11-24T15:09:07Z) - Rethinking Consistent Multi-Label Classification under Inexact Supervision [60.79309683889278]
部分的マルチラベル学習では、各インスタンスには候補ラベルセットがアノテートされ、そのうちいくつかのラベルのみが関連付けられている。
補完的なマルチラベル学習では、各インスタンスは、インスタンスが属さないクラスを示す補完ラベルで注釈付けされる。
論文 参考訳(メタデータ) (2025-10-05T08:30:32Z) - When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG Search [0.0]
大規模言語モデル(LLM)は、情報検索パイプラインに文書関連ラベルを割り当てるのにますます使われている。
LLMは境界線のケースにしばしば反対し、そのような不一致が下流の検索にどのように影響するかという懸念を提起する。
モデル不一致は体系的であり、ランダムではないことを示す。
本稿では,検索評価における分析対象として分類不一致を用いることを提案する。
論文 参考訳(メタデータ) (2025-07-02T20:53:51Z) - Subjective Logic Encodings [20.458601113219697]
データパースペクティビズムは、アノテーション間の不一致を利用してモデルを学習しようとする。
主観論理SLEはアノテーションをアノテータの意見として明示的にエンコードする分類対象を構築するためのフレームワークである。
論文 参考訳(メタデータ) (2025-02-17T15:14:10Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Classification with Rejection Based on Cost-sensitive Classification [83.50402803131412]
学習のアンサンブルによる拒絶を用いた新しい分類法を提案する。
実験により, クリーン, ノイズ, 正の未ラベル分類における提案手法の有用性が示された。
論文 参考訳(メタデータ) (2020-10-22T14:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。