論文の概要: A Principled Approach to Failure Analysis and Model Repairment:
Demonstration in Medical Imaging
- arxiv url: http://arxiv.org/abs/2109.12347v1
- Date: Sat, 25 Sep 2021 12:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 16:01:39.647404
- Title: A Principled Approach to Failure Analysis and Model Repairment:
Demonstration in Medical Imaging
- Title(参考訳): 故障解析とモデル修復の原理的アプローチ:医用画像における実証
- Authors: Thomas Henn, Yasukazu Sakamoto, Cl\'ement Jacquet, Shunsuke Yoshizawa,
Masamichi Andou, Stephen Tchen, Ryosuke Saga, Hiroyuki Ishihara, Katsuhiko
Shimizu, Yingzhen Li and Ryutaro Tanno
- Abstract要約: マシンラーニングモデルは通常、デプロイ後の予期せぬ失敗を示す。
私たちは2つの重要な質問に答えることで、このプロセスの標準化と原則の導入を目指しています。
そこで本研究では,タイプ内および型間一般化の測定により,特定された障害タイプの品質を検証できることを示唆する。
我々は,以前に正しいデータの性能を維持しつつ,失敗タイプに対して高い精度を達成できた場合,モデルを修復すると考えることができると論じる。
- 参考スコア(独自算出の注目度): 12.732665048388041
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine learning models commonly exhibit unexpected failures post-deployment
due to either data shifts or uncommon situations in the training environment.
Domain experts typically go through the tedious process of inspecting the
failure cases manually, identifying failure modes and then attempting to fix
the model. In this work, we aim to standardise and bring principles to this
process through answering two critical questions: (i) how do we know that we
have identified meaningful and distinct failure types?; (ii) how can we
validate that a model has, indeed, been repaired? We suggest that the quality
of the identified failure types can be validated through measuring the intra-
and inter-type generalisation after fine-tuning and introduce metrics to
compare different subtyping methods. Furthermore, we argue that a model can be
considered repaired if it achieves high accuracy on the failure types while
retaining performance on the previously correct data. We combine these two
ideas into a principled framework for evaluating the quality of both the
identified failure subtypes and model repairment. We evaluate its utility on a
classification and an object detection tasks. Our code is available at
https://github.com/Rokken-lab6/Failure-Analysis-and-Model-Repairment
- Abstract(参考訳): マシンラーニングモデルは通常、データシフトやトレーニング環境での異常な状況のために、デプロイ後の予期せぬ失敗を示す。
ドメインの専門家は通常、手動で障害ケースを検査し、障害モードを特定し、モデルを修正しようとする、面倒なプロセスを経ます。
本研究では,2つの重要な疑問に答えることによって,このプロセスの標準化と原則の導入を目指しています。
i) 意味があり、異なる障害タイプを特定できたことをどうやって知るか。
;
(ii)モデルが実際に修復されたことをどうやって検証できますか?
細調整後の型内および型間一般化を計測し,異なるサブタイピング手法を比較するための指標を導入することにより,識別された障害タイプの品質を検証することを提案する。
さらに,先行したデータの性能を維持しつつ,障害タイプに対して高い精度を達成すれば,モデルが修復されると考えることもできる。
これら2つのアイデアを,特定された障害サブタイプとモデル修復の両方の品質を評価するための原則付きフレームワークに組み合わせる。
分類とオブジェクト検出タスクにおいて,その有用性を評価する。
私たちのコードはhttps://github.com/Rokken-lab6/Failure-Analysis-and-Model-Repairmentで利用可能です。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Misclassification in Automated Content Analysis Causes Bias in
Regression. Can We Fix It? Yes We Can! [0.30693357740321775]
我々は,コミュニケーション学者が誤分類バイアスをほとんど無視していることを,体系的な文献レビューで示している。
既存の統計手法では、人間のアノテータによって作成されたような「金の標準」検証データを使って誤分類バイアスを補正することができる。
我々は、Rパッケージの誤分類モデルの設計と実装を含む、そのような手法を導入し、テストする。
論文 参考訳(メタデータ) (2023-07-12T23:03:55Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Repairing Neural Networks by Leaving the Right Past Behind [23.78437548836594]
機械学習モデルの予測失敗は、トレーニングデータの欠陥から生じることが多い。
この研究は、目標とする障害を発生させたトレーニング例を特定し、それらに関する情報を消去することでモデルを修正するための一般的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-07-11T12:07:39Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Defuse: Harnessing Unrestricted Adversarial Examples for Debugging
Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。
本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。
Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文 参考訳(メタデータ) (2021-02-11T18:08:42Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文 参考訳(メタデータ) (2020-11-10T22:23:25Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。