論文の概要: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation
- arxiv url: http://arxiv.org/abs/2602.11318v1
- Date: Wed, 11 Feb 2026 19:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.510861
- Title: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation
- Title(参考訳): データアノテーションにおける主観性と「全体真実」のイリュージョン
- Authors: Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed,
- Abstract要約: 機械学習において、「基底真理」とは、モデルの訓練と評価に使用される正しいラベルを指す。
この体系的な文献レビューは、2020年から2025年の間に発行された研究を7つの主要な会場で分析する。
- 参考スコア(独自算出の注目度): 23.545262620377887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning, "ground truth" refers to the assumed correct labels used to train and evaluate models. However, the foundational "ground truth" paradigm rests on a positivistic fallacy that treats human disagreement as technical noise rather than a vital sociotechnical signal. This systematic literature review analyzes research published between 2020 and 2025 across seven premier venues: ACL, AIES, CHI, CSCW, EAAMO, FAccT, and NeurIPS, investigating the mechanisms in data annotation practices that facilitate this "consensus trap". Our identification phase captured 30,897 records, which were refined via a tiered keyword filtration schema to a high-recall corpus of 3,042 records for manual screening, resulting in a final included corpus of 346 papers for qualitative synthesis. Our reflexive thematic analysis reveals that systemic failures in positional legibility, combined with the recent architectural shift toward human-as-verifier models, specifically the reliance on model-mediated annotations, introduce deep-seated anchoring bias and effectively remove human voices from the loop. We further demonstrate how geographic hegemony imposes Western norms as universal benchmarks, often enforced by the performative alignment of precarious data workers who prioritize requester compliance over honest subjectivity to avoid economic penalties. Critiquing the "noisy sensor" fallacy, where statistical models misdiagnose cultural pluralism as random error, we argue for reclaiming disagreement as a high-fidelity signal essential for building culturally competent models. To address these systemic tensions, we propose a roadmap for pluralistic annotation infrastructures that shift the objective from discovering a singular "right" answer to mapping the diversity of human experience.
- Abstract(参考訳): 機械学習において、「基底真理」とは、モデルの訓練と評価に使用される正しいラベルを指す。
しかし、基礎的な「地上の真実」パラダイムは、人間の不一致を重要な社会技術信号というよりも技術的なノイズとして扱う実証的な誤信に基づいている。
この体系的な文献レビューは、ACL、AIES、CHI、CSCW、EAAMO、FAccT、NeurIPSという7つの主要な会場で2020年から2025年にかけて発行された研究を分析し、この「合意トラップ」を促進するデータアノテーションプラクティスのメカニズムを調査している。
同定フェーズでは30,897レコードを抽出し,タイアップしたキーワードフィルタスキーマを用いて,手動スクリーニングのためのハイリコールコーパス3,042レコードに精製し,定性合成のための最終コーパス346枚を収録した。
我々の反射的セマンティック分析は、位置の正当性におけるシステム的失敗と、近年のヒューマン・アズ・ベリファイア・モデルへのアーキテクチャ的シフト、特にモデルによるアノテーションへの依存、深い位置のアンカーバイアスを導入し、ループから人間の声を効果的に除去していることを明らかにする。
さらに、地理的なヘゲモニーが西洋の基準を普遍的な基準として課し、経済的な罰則を避けるために、正直な主観性よりも要求者の遵守を優先する不気味なデータ労働者の行動的整合によって、しばしば強制されることを実証する。
統計モデルが文化的多元性をランダムな誤りと誤認する「ノイズセンサー」の誤認を批判し、文化的に有能なモデル構築に不可欠な高忠実な信号として不一致を取り戻そうと論じる。
このようなシステム的緊張に対処するため,本研究では,目的を特異な「正しい」回答発見から,人間の経験の多様性のマッピングへとシフトさせる多元的アノテーション基盤のロードマップを提案する。
関連論文リスト
- RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - A Critical Review of the Need for Knowledge-Centric Evaluation of Quranic Recitation [0.9332987715848714]
クラーニック・リサイクリング(タイウェド)の聖なる実践は、現代において重要な教育的課題に直面している。
デジタル技術は教育への前例のないアクセスを約束する一方で、評価のための自動ツールが広く普及または教育効果を達成できなかった。
本総説では, 言語知識と高度な音声分析を融合したハイブリッドシステムに, 自動クラニック評価の今後について考察する。
論文 参考訳(メタデータ) (2025-10-14T13:39:49Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - BiasLab: Toward Explainable Political Bias Detection with Dual-Axis Annotations and Rationale Indicators [0.0]
BiasLabは、イデオロギー的偏見を意識した300の政治ニュース記事のデータセットである。
各記事は2つの独立したスケールでクラウドワーカーによってラベル付けされ、民主党と共和党に対する感情を評価している。
我々は、アノテータ間の合意を定量化し、ソースレベルの出口バイアスによる誤調整を分析し、その結果のラベルを解釈可能なサブセットに整理する。
論文 参考訳(メタデータ) (2025-05-21T23:50:42Z) - Unsupervised dense retrieval with conterfactual contrastive learning [16.679649921935482]
そこで本研究では,高密度検索モデルの高感度化により,高密度検索モデルのロバスト性を向上させることを提案する。
この文脈での感度を達成するモデルは、クエリとの関連性を決定するドキュメントのキーパスが修正されたときに高いばらつきを示すべきである。
因果関係と反事実分析に動機付け, 一連の反事実正則化手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T07:01:34Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Robust and Explainable Identification of Logical Fallacies in Natural
Language Arguments [5.850977561881791]
論理的誤りに関する先行理論を総合的な3段階評価フレームワークに定式化する。
我々は,プロトタイプ推論,インスタンスベースの推論,知識注入に基づく,堅牢で説明可能な3つの手法を取り入れている。
我々はこれらの手法をデータセット上で広範囲に評価し、その堅牢性と説明可能性に焦点を当てた。
論文 参考訳(メタデータ) (2022-12-12T20:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。