論文の概要: Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.04476v2
- Date: Sun, 10 Sep 2023 20:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:02:43.184184
- Title: Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing
- Title(参考訳): 自然言語処理のための自動スライス検出フレームワークの発見, 説明, 改善
- Authors: Wenyue Hua, Lifeng Jin, Linfeng Song, Haitao Mi, Yongfeng Zhang, Dong
Yu
- Abstract要約: スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
- 参考スコア(独自算出の注目度): 72.14557106085284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained natural language processing (NLP) models have achieved high
overall performance, but they still make systematic errors. Instead of manual
error analysis, research on slice detection models (SDM), which automatically
identify underperforming groups of datapoints, has caught escalated attention
in Computer Vision for both understanding model behaviors and providing
insights for future model training and designing. However, little research on
SDM and quantitative evaluation of their effectiveness have been conducted on
NLP tasks. Our paper fills the gap by proposing a benchmark named "Discover,
Explain, Improve (DEIM)" for classification NLP tasks along with a new SDM
Edisa. Edisa discovers coherent and underperforming groups of datapoints; DEIM
then unites them under human-understandable concepts and provides comprehensive
evaluation tasks and corresponding quantitative metrics. The evaluation in DEIM
shows that Edisa can accurately select error-prone datapoints with informative
semantic features that summarize error patterns. Detecting difficult datapoints
directly boosts model performance without tuning any original model parameters,
showing that discovered slices are actionable for users.
- Abstract(参考訳): 事前訓練された自然言語処理(NLP)モデルは全体的な性能は高いが、それでも体系的な誤りを犯す。
手動エラー解析の代わりに、データポイントの低パフォーマンスなグループを自動的に識別するスライス検出モデル(SDM)の研究が、モデル動作の理解と将来のモデルトレーニングと設計のための洞察を提供するために、コンピュータビジョンにおいて注目されている。
しかし,NLPタスクにおいて,SDMの定量的評価や定量的評価はほとんど行われていない。
本稿では,新たなSDM Edisaとともに,NLPタスクの分類のための"Discover, Explain, Improve (DEIM)"というベンチマークを提案し,そのギャップを埋める。
Edisaはデータポイントの一貫性と性能の低いグループを発見し、DEIMはそれらを人間の理解可能な概念の下で統一し、包括的な評価タスクとそれに対応する定量的メトリクスを提供する。
DEIMの評価は、Edisaがエラーパターンを要約する情報的セマンティック特徴を用いて、正確にエラー発生データポイントを選択することができることを示している。
難しいデータポイントの検出は、オリジナルのモデルパラメータをチューニングすることなく、モデルパフォーマンスを直接的に向上させる。
関連論文リスト
- MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - AttributionScanner: A Visual Analytics System for Metadata-Free
Data-Slicing Based Model Validation [31.19426148651238]
AttributionScannerは、データスライシングベースの機械学習(ML)モデルの検証用に設計されたビジュアル分析システムである。
提案手法は,説明可能なAI(XAI)技術を用いて抽出した説明可能な特徴を利用して,解釈可能なデータスライスを識別する。
我々のフレームワークは、最先端のニューラルネットワーク正規化技術を使用することで、ドメインエキスパートにモデル問題に対処する権限を与えることで、ML開発サイクルを閉じる。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification [1.0624606551524207]
偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。
本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。
次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
論文 参考訳(メタデータ) (2023-11-16T10:35:11Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generalizable Error Modeling for Search Relevance Data Annotation Tasks [0.0]
人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms [24.127380328812855]
新しいスライス発見アルゴリズムは、データの一貫性と高いエラーのサブセットをグループ化することを目的としている。
2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに示し、オブジェクト検出モデルに関する仮説を作成するよう依頼する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
論文 参考訳(メタデータ) (2023-06-13T22:44:53Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。