論文の概要: Azimuth: Systematic Error Analysis for Text Classification
- arxiv url: http://arxiv.org/abs/2212.08216v1
- Date: Fri, 16 Dec 2022 01:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:10:25.445176
- Title: Azimuth: Systematic Error Analysis for Text Classification
- Title(参考訳): Azimuth: テキスト分類のための体系的誤り解析
- Authors: Gabrielle Gauthier-Melan\c{c}on (1), Orlando Marquez Ayala (1),
Lindsay Brin (1), Chris Tyler (1), Fr\'ed\'eric Branchaud-Charron (2), Joseph
Marinier (1), Karine Grande (1), Di Le (1) ((1) ServiceNow, (2) Glowstick)
- Abstract要約: Azimuthは、テキスト分類のエラー解析を行うオープンソースツールである。
本稿では,データセット分析とモデル品質評価を組み合わせたアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.157292030677369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Azimuth, an open-source and easy-to-use tool to perform error
analysis for text classification. Compared to other stages of the ML
development cycle, such as model training and hyper-parameter tuning, the
process and tooling for the error analysis stage are less mature. However, this
stage is critical for the development of reliable and trustworthy AI systems.
To make error analysis more systematic, we propose an approach comprising
dataset analysis and model quality assessment, which Azimuth facilitates. We
aim to help AI practitioners discover and address areas where the model does
not generalize by leveraging and integrating a range of ML techniques, such as
saliency maps, similarity, uncertainty, and behavioral analyses, all in one
tool. Our code and documentation are available at
github.com/servicenow/azimuth.
- Abstract(参考訳): テキスト分類のための誤り解析を行うオープンソースで使いやすいツールであるAzimuthを提案する。
モデルトレーニングやハイパーパラメータチューニングといったML開発サイクルの他の段階と比較して、エラー解析ステージのプロセスとツーリングは成熟していない。
しかし、この段階は信頼性と信頼性の高いAIシステムの開発に不可欠である。
誤り解析をより体系的にするために,Azimuthが支援するデータセット解析とモデル品質評価を組み合わせたアプローチを提案する。
私たちは、サリエンシマップ、類似性、不確実性、行動分析など、さまざまなMLテクニックを1つのツールで活用し、統合することにより、AI実践者が一般化しない領域を発見し、対処することを目指している。
コードとドキュメントはgithub.com/servicenow/azimuthで入手できます。
関連論文リスト
- The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - The Hitchhiker's Guide to Program Analysis: A Journey with Large
Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。
本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。
LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文 参考訳(メタデータ) (2023-08-01T02:57:43Z) - Metric Tools for Sensitivity Analysis with Applications to Neural
Networks [0.0]
説明可能な人工知能(XAI)は、機械学習モデルによる予測の解釈を提供することを目的としている。
本稿では,計量手法を用いてMLモデルの感性を研究するための理論的枠組みを提案する。
$alpha$-curvesと呼ばれる新しいメトリクスの完全なファミリーが抽出される。
論文 参考訳(メタデータ) (2023-05-03T18:10:21Z) - Deep Learning for Anomaly Detection in Log Data: A Survey [3.508620069426877]
自己学習異常検出技術は、ログデータのパターンをキャプチャし、予期しないログイベントを報告する。
この目的のためのディープラーニングニューラルネットワークが紹介されている。
ディープラーニングにはさまざまなアーキテクチャがあり、生と非構造化のログデータをエンコードするのは簡単ではない。
論文 参考訳(メタデータ) (2022-07-08T10:58:28Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Spatial machine-learning model diagnostics: a model-agnostic
distance-based approach [91.62936410696409]
本研究は,空間予測誤差プロファイル (SPEP) と空間変数重要度プロファイル (SVIP) を,新しいモデルに依存しない評価・解釈ツールとして提案する。
統計学的手法、線形モデル、ランダムフォレスト、ハイブリッドアルゴリズムのSPEPとSVIPは、顕著な差異と関連する類似性を示している。
この新しい診断ツールは空間データ科学のツールキットを充実させ、MLモデルの解釈、選択、設計を改善する可能性がある。
論文 参考訳(メタデータ) (2021-11-13T01:50:36Z) - Unrolling SGD: Understanding Factors Influencing Machine Unlearning [17.6607904333012]
機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。
まず、近似アンラーニングのアプローチとメトリクスを分類する。
検証誤差(L2差)、すなわち、ほとんど学習されていないモデルの重みと鼻再訓練されたモデルのL2差を同定する。
論文 参考訳(メタデータ) (2021-09-27T23:46:59Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Machine Learning to Tackle the Challenges of Transient and Soft Errors
in Complex Circuits [0.16311150636417257]
機械学習モデルは、回路インスタンスの完全なリストに対して、インスタンスごとの正確な関数デレートデータを予測するために使用される。
提案手法を実例に適用し,各種機械学習モデルの評価と比較を行った。
論文 参考訳(メタデータ) (2020-02-18T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。