論文の概要: Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.04476v1
- Date: Tue, 8 Nov 2022 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:54:02.822843
- Title: Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing
- Title(参考訳): 自然言語処理のための自動スライス検出フレームワークの発見,説明,改善
- Authors: Wenyue Hua, Lifeng Jin, Linfeng Song, Haitao Mi, Yongfeng Zhang, Dong
Yu
- Abstract要約: 「発見、説明、改善」フレームワークは、データポイントの一貫性と性能の低いグループを発見する。
我々のフレームワークは、エラーパターンを要約する情報的意味的特徴によって、エラーを起こしやすいデータポイントを正確に選択できる。
- 参考スコア(独自算出の注目度): 65.63380943075745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current natural language processing (NLP) models such as BERT and RoBERTa
have achieved high overall performance, but they often make systematic errors
due to bias or certain difficult features to learn. Thus research on slice
detection models (SDM) which automatically identifies underperforming groups of
datapoints has gradually caught more attention, which aims at both
understanding model behaviors and providing insights for future model training
and designing. However, there is little systematic research on SDM and
quantitative evaluation of its assessment for NLP models. Our paper fills this
gap by proposing "Discover, Explanation, Improvement" framework that discovers
coherent and underperforming groups of datapoints and unites datapoints of each
slice under human-understandable concepts; it also provides comprehensive
evaluation tasks and the corresponding quantitative metrics, which enable
convenient comparison for future works. Results show that our framework can
accurately select error-prone datapoints with informative semantic features
that summarize error patterns, based on which it directly boosts model
performance by an average of 2.85 points based on trained models without tuning
any parameters across multiple datasets.
- Abstract(参考訳): BERTやRoBERTaのような現在の自然言語処理(NLP)モデルは全体的な性能は高いが、バイアスや学習の難しい特徴のために体系的な誤りを犯すことが多い。
そこで,データポイントの低パフォーマンスなグループを自動的に識別するスライス検出モデル (SDM) の研究が次第に注目され,モデル動作の理解と将来のモデルトレーニングと設計のための洞察の提供が目的となっている。
しかし、SDMの体系的な研究やNLPモデルの評価の定量的評価はほとんどない。
このギャップを埋めるために,本論文では,人間の理解可能な概念の下で各スライスの各データポイントの一貫性と性能の低いグループを発見し,データポイントを統一する"Discover, Explanation, Improvement"フレームワークを提案する。
結果から,本フレームワークでは,複数のデータセットにまたがるパラメータを調整することなく,トレーニングモデルに基づく平均2.85ポイントのモデル性能を直接的に向上させることができる。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。
MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。
提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。