論文の概要: ASI: Accuracy-Stability Index for Evaluating Deep Learning Models
- arxiv url: http://arxiv.org/abs/2311.15332v2
- Date: Wed, 14 Feb 2024 19:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:55:44.863249
- Title: ASI: Accuracy-Stability Index for Evaluating Deep Learning Models
- Title(参考訳): ASI:ディープラーニングモデル評価のための精度安定度指標
- Authors: Wei Dai, Daniel Berleant
- Abstract要約: 本稿では、深層学習モデルの評価に精度と安定性の両方を取り入れた定量的尺度であるASI(Acuracy-Stability Index)を紹介する。
本論文は潜在的な弱点について論じ、今後の研究の方向性を概説する。
- 参考スコア(独自算出の注目度): 3.685972342383005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the context of deep learning research, where model introductions
continually occur, the need for effective and efficient evaluation remains
paramount. Existing methods often emphasize accuracy metrics, overlooking
stability. To address this, the paper introduces the Accuracy-Stability Index
(ASI), a quantitative measure incorporating both accuracy and stability for
assessing deep learning models. Experimental results demonstrate the
application of ASI, and a 3D surface model is presented for visualizing ASI,
mean accuracy, and coefficient of variation. This paper addresses the important
issue of quantitative benchmarking metrics for deep learning models, providing
a new approach for accurately evaluating accuracy and stability of deep
learning models. The paper concludes with discussions on potential weaknesses
and outlines future research directions.
- Abstract(参考訳): モデル導入が継続する深層学習研究の文脈では、効果的で効率的な評価の必要性が依然として最重要である。
既存の手法は、しばしば精度の指標を強調し、安定性を見越す。
これを解決するために,深層学習モデルの精度と安定性を両立させる定量的尺度であるASI(Acuracy-Stability Index)を提案する。
実験により, ASIの応用が実証され, ASI, 平均精度, 変動係数を可視化する3次元表面モデルが提示された。
本稿では,深層学習モデルの精度と安定性を正確に評価するための新しい手法として,深層学習モデルの定量的ベンチマーク指標の重要な課題について述べる。
本稿は,潜在的な弱さに関する議論を終え,今後の研究方向性を概説する。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Continual Human Pose Estimation for Incremental Integration of Keypoints and Pose Variations [12.042768320132694]
本稿では,連続的な学習課題として,データセット間のポーズ推定を再構成する。
我々は、破滅的な忘れを緩和するための確立された正規化に基づく手法に対して、この定式化をベンチマークする。
提案手法は,既存の正規化に基づく継続学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-30T16:29:30Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。