論文の概要: Evaluating Machine Learning Models with NERO: Non-Equivariance Revealed
on Orbits
- arxiv url: http://arxiv.org/abs/2305.19889v1
- Date: Wed, 31 May 2023 14:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:12:52.488596
- Title: Evaluating Machine Learning Models with NERO: Non-Equivariance Revealed
on Orbits
- Title(参考訳): NEROによる機械学習モデルの評価:軌道上での非等価性
- Authors: Zhuokai Zhao, Takumi Matsuzawa, William Irvine, Michael Maire, Gordon
L Kindlmann
- Abstract要約: 本研究では,Non-Equivariance Revealed on Orbits (NERO) Evaluationという新しい評価ワークフローを提案する。
NERO評価は、タスクに依存しない対話インタフェースと、NEROプロットと呼ばれる視覚化のセットで構成されている。
NEROの評価が2次元数値認識、物体検出、粒子画像速度測定(PIV)、および3次元点雲分類など、複数の研究領域に適用可能なケーススタディである。
- 参考スコア(独自算出の注目度): 19.45052971156096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proper evaluations are crucial for better understanding, troubleshooting,
interpreting model behaviors and further improving model performance. While
using scalar-based error metrics provides a fast way to overview model
performance, they are often too abstract to display certain weak spots and lack
information regarding important model properties, such as robustness. This not
only hinders machine learning models from being more interpretable and gaining
trust, but also can be misleading to both model developers and users.
Additionally, conventional evaluation procedures often leave researchers
unclear about where and how model fails, which complicates model comparisons
and further developments. To address these issues, we propose a novel
evaluation workflow, named Non-Equivariance Revealed on Orbits (NERO)
Evaluation. The goal of NERO evaluation is to turn focus from traditional
scalar-based metrics onto evaluating and visualizing models equivariance,
closely capturing model robustness, as well as to allow researchers quickly
investigating interesting or unexpected model behaviors. NERO evaluation is
consist of a task-agnostic interactive interface and a set of visualizations,
called NERO plots, which reveals the equivariance property of the model. Case
studies on how NERO evaluation can be applied to multiple research areas,
including 2D digit recognition, object detection, particle image velocimetry
(PIV), and 3D point cloud classification, demonstrate that NERO evaluation can
quickly illustrate different model equivariance, and effectively explain model
behaviors through interactive visualizations of the model outputs. In addition,
we propose consensus, an alternative to ground truths, to be used in NERO
evaluation so that model equivariance can still be evaluated with new,
unlabeled datasets.
- Abstract(参考訳): 適切な評価は、より良い理解、トラブルシューティング、モデルの振る舞いの解釈、モデルパフォーマンスの向上に不可欠です。
scalarベースのエラーメトリクスは、モデルパフォーマンスを概観するための高速な方法を提供するが、それらはしばしば抽象的すぎるので、特定の弱点を表示し、堅牢性などの重要なモデル特性に関する情報を欠いている。
これは機械学習モデルがより解釈しやすくなり、信頼を得るのを妨げるだけでなく、モデル開発者とユーザの両方にとって誤解を招く可能性がある。
さらに、従来の評価手法は、モデルの比較とさらなる発展を複雑にするモデルがどこでどのように失敗するかを研究者に不明瞭にさせることが多い。
これらの課題に対処するため,Non-Equivariance Revealed on Orbits (NERO) Evaluationという新しい評価ワークフローを提案する。
NERO評価の目標は、従来のスカラーベースのメトリクスからモデルの等価性を評価・視覚化し、モデルロバスト性を密に捉え、研究者が興味や予期せぬモデルの振る舞いを素早く調査できるようにすることである。
NERO の評価はタスクに依存しない対話インタフェースと NERO プロットと呼ばれる可視化の集合から成り、モデルの同値性を明らかにする。
NERO評価が2次元数値認識、物体検出、粒子画像速度測定(PIV)、および3次元点雲分類など、複数の研究領域に適用可能なケーススタディでは、NERO評価がモデル等価性を迅速に説明し、モデル出力のインタラクティブな可視化を通してモデル挙動を効果的に説明できることが示されている。
さらに,新たなラベル付きデータセットを用いてモデル等価性を評価できるように,NERO評価に使用する基底真理の代替となるコンセンサスを提案する。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Artificial neural networks and time series of counts: A class of
nonlinear INGARCH models [0.0]
INGARCHモデルを人工知能ニューラルネットワーク(ANN)応答関数と組み合わせて非線形INGARCHモデルのクラスを得る方法を示す。
ANNフレームワークは、対応するニューラルモデルの退化バージョンとして、既存のINGARCHモデルの解釈を可能にする。
有界数と非有界数の時系列の実証分析により、ニューラルINGARCHモデルは、情報損失の観点から、合理的に退化した競合モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-03T14:26:16Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Interpreting Black-box Machine Learning Models for High Dimensional
Datasets [40.09157165704895]
我々は、高次元データセット上でブラックボックスモデルをトレーニングし、その分類が行われる埋め込みを学習する。
次に、トップk特徴空間上の解釈可能な代理モデルを用いてブラックボックスモデルの挙動を近似する。
我々のアプローチは、異なるデータセットでテストした場合、TabNetやXGboostのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-29T07:36:17Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。