論文の概要: Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.04476v2
- Date: Sun, 10 Sep 2023 20:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:02:43.184184
- Title: Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing
- Title(参考訳): 自然言語処理のための自動スライス検出フレームワークの発見, 説明, 改善
- Authors: Wenyue Hua, Lifeng Jin, Linfeng Song, Haitao Mi, Yongfeng Zhang, Dong
Yu
- Abstract要約: スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
- 参考スコア(独自算出の注目度): 72.14557106085284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained natural language processing (NLP) models have achieved high
overall performance, but they still make systematic errors. Instead of manual
error analysis, research on slice detection models (SDM), which automatically
identify underperforming groups of datapoints, has caught escalated attention
in Computer Vision for both understanding model behaviors and providing
insights for future model training and designing. However, little research on
SDM and quantitative evaluation of their effectiveness have been conducted on
NLP tasks. Our paper fills the gap by proposing a benchmark named "Discover,
Explain, Improve (DEIM)" for classification NLP tasks along with a new SDM
Edisa. Edisa discovers coherent and underperforming groups of datapoints; DEIM
then unites them under human-understandable concepts and provides comprehensive
evaluation tasks and corresponding quantitative metrics. The evaluation in DEIM
shows that Edisa can accurately select error-prone datapoints with informative
semantic features that summarize error patterns. Detecting difficult datapoints
directly boosts model performance without tuning any original model parameters,
showing that discovered slices are actionable for users.
- Abstract(参考訳): 事前訓練された自然言語処理(NLP)モデルは全体的な性能は高いが、それでも体系的な誤りを犯す。
手動エラー解析の代わりに、データポイントの低パフォーマンスなグループを自動的に識別するスライス検出モデル(SDM)の研究が、モデル動作の理解と将来のモデルトレーニングと設計のための洞察を提供するために、コンピュータビジョンにおいて注目されている。
しかし,NLPタスクにおいて,SDMの定量的評価や定量的評価はほとんど行われていない。
本稿では,新たなSDM Edisaとともに,NLPタスクの分類のための"Discover, Explain, Improve (DEIM)"というベンチマークを提案し,そのギャップを埋める。
Edisaはデータポイントの一貫性と性能の低いグループを発見し、DEIMはそれらを人間の理解可能な概念の下で統一し、包括的な評価タスクとそれに対応する定量的メトリクスを提供する。
DEIMの評価は、Edisaがエラーパターンを要約する情報的セマンティック特徴を用いて、正確にエラー発生データポイントを選択することができることを示している。
難しいデータポイントの検出は、オリジナルのモデルパラメータをチューニングすることなく、モデルパフォーマンスを直接的に向上させる。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。