論文の概要: Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.04476v1
- Date: Tue, 8 Nov 2022 19:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:54:02.822843
- Title: Discover, Explanation, Improvement: Automatic Slice Detection Framework
for Natural Language Processing
- Title(参考訳): 自然言語処理のための自動スライス検出フレームワークの発見,説明,改善
- Authors: Wenyue Hua, Lifeng Jin, Linfeng Song, Haitao Mi, Yongfeng Zhang, Dong
Yu
- Abstract要約: 「発見、説明、改善」フレームワークは、データポイントの一貫性と性能の低いグループを発見する。
我々のフレームワークは、エラーパターンを要約する情報的意味的特徴によって、エラーを起こしやすいデータポイントを正確に選択できる。
- 参考スコア(独自算出の注目度): 65.63380943075745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current natural language processing (NLP) models such as BERT and RoBERTa
have achieved high overall performance, but they often make systematic errors
due to bias or certain difficult features to learn. Thus research on slice
detection models (SDM) which automatically identifies underperforming groups of
datapoints has gradually caught more attention, which aims at both
understanding model behaviors and providing insights for future model training
and designing. However, there is little systematic research on SDM and
quantitative evaluation of its assessment for NLP models. Our paper fills this
gap by proposing "Discover, Explanation, Improvement" framework that discovers
coherent and underperforming groups of datapoints and unites datapoints of each
slice under human-understandable concepts; it also provides comprehensive
evaluation tasks and the corresponding quantitative metrics, which enable
convenient comparison for future works. Results show that our framework can
accurately select error-prone datapoints with informative semantic features
that summarize error patterns, based on which it directly boosts model
performance by an average of 2.85 points based on trained models without tuning
any parameters across multiple datasets.
- Abstract(参考訳): BERTやRoBERTaのような現在の自然言語処理(NLP)モデルは全体的な性能は高いが、バイアスや学習の難しい特徴のために体系的な誤りを犯すことが多い。
そこで,データポイントの低パフォーマンスなグループを自動的に識別するスライス検出モデル (SDM) の研究が次第に注目され,モデル動作の理解と将来のモデルトレーニングと設計のための洞察の提供が目的となっている。
しかし、SDMの体系的な研究やNLPモデルの評価の定量的評価はほとんどない。
このギャップを埋めるために,本論文では,人間の理解可能な概念の下で各スライスの各データポイントの一貫性と性能の低いグループを発見し,データポイントを統一する"Discover, Explanation, Improvement"フレームワークを提案する。
結果から,本フレームワークでは,複数のデータセットにまたがるパラメータを調整することなく,トレーニングモデルに基づく平均2.85ポイントのモデル性能を直接的に向上させることができる。
関連論文リスト
- MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - AttributionScanner: A Visual Analytics System for Metadata-Free
Data-Slicing Based Model Validation [31.19426148651238]
AttributionScannerは、データスライシングベースの機械学習(ML)モデルの検証用に設計されたビジュアル分析システムである。
提案手法は,説明可能なAI(XAI)技術を用いて抽出した説明可能な特徴を利用して,解釈可能なデータスライスを識別する。
我々のフレームワークは、最先端のニューラルネットワーク正規化技術を使用することで、ドメインエキスパートにモデル問題に対処する権限を与えることで、ML開発サイクルを閉じる。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and
Classification [1.0624606551524207]
偽ニュースは偽情報、偽ニュース、プロパガンダを広めるために用いられる。
本研究は, 従来の分類と整合し, 精査する, 誤診の新しい分類法について紹介する。
次に、ゼロショット学習環境下で複数の言語モデルを評価し、その誤検出と分類能力を評価する。
論文 参考訳(メタデータ) (2023-11-16T10:35:11Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generalizable Error Modeling for Search Relevance Data Annotation Tasks [0.0]
人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms [24.127380328812855]
新しいスライス発見アルゴリズムは、データの一貫性と高いエラーのサブセットをグループ化することを目的としている。
2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに示し、オブジェクト検出モデルに関する仮説を作成するよう依頼する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
論文 参考訳(メタデータ) (2023-06-13T22:44:53Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。