論文の概要: Generalizable Error Modeling for Search Relevance Data Annotation Tasks
- arxiv url: http://arxiv.org/abs/2310.05286v1
- Date: Sun, 8 Oct 2023 21:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:52:08.517567
- Title: Generalizable Error Modeling for Search Relevance Data Annotation Tasks
- Title(参考訳): 検索関連データアノテーションタスクの一般化誤りモデリング
- Authors: Heinrich Peters, Alireza Hashemi, James Rae
- Abstract要約: 人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human data annotation is critical in shaping the quality of machine learning
(ML) and artificial intelligence (AI) systems. One significant challenge in
this context is posed by annotation errors, as their effects can degrade the
performance of ML models. This paper presents a predictive error model trained
to detect potential errors in search relevance annotation tasks for three
industry-scale ML applications (music streaming, video streaming, and mobile
apps) and assesses its potential to enhance the quality and efficiency of the
data annotation process. Drawing on real-world data from an extensive search
relevance annotation program, we illustrate that errors can be predicted with
moderate model performance (AUC=0.65-0.75) and that model performance
generalizes well across applications (i.e., a global, task-agnostic model
performs on par with task-specific models). We present model explainability
analyses to identify which types of features are the main drivers of predictive
performance. Additionally, we demonstrate the usefulness of the model in the
context of auditing, where prioritizing tasks with high predicted error
probabilities considerably increases the amount of corrected annotation errors
(e.g., 40% efficiency gains for the music streaming application). These results
underscore that automated error detection models can yield considerable
improvements in the efficiency and quality of data annotation processes. Thus,
our findings reveal critical insights into effective error management in the
data annotation process, thereby contributing to the broader field of
human-in-the-loop ML.
- Abstract(参考訳): 人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能を低下させるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの業界規模のmlアプリケーション(音楽ストリーミング,ビデオストリーミング,モバイルアプリ)において,検索関連アノテーションタスクの潜在的なエラーを検出するように学習した予測エラーモデルを提案する。
広範囲な検索関連アノテーションプログラムから実世界データを取り上げ,中程度のモデル性能(auc=0.65-0.75)でエラーを予測でき,アプリケーション間でのモデル性能が良好に一般化できることを示した。
モデル説明可能性解析を行い,予測性能の主要な要因となる特徴の同定を行う。
さらに,予測エラー確率の高いタスクの優先順位付けが,修正されたアノテーションエラーの量(例えば,音楽ストリーミングアプリケーションにおいて40%の効率向上)を大幅に増加させる,監査の文脈におけるモデルの有用性を示す。
これらの結果は、自動エラー検出モデルが、データアノテーションプロセスの効率と品質を大幅に改善できることを示している。
そこで本研究では,データアノテーションプロセスにおける効率的なエラー管理に関する重要な知見を明らかにし,より広範なヒューマン・イン・ザ・ループMLの分野に寄与する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。
以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文 参考訳(メタデータ) (2023-10-12T00:51:06Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。