Fugu-MT 論文翻訳(概要): A Principled Approach to Failure Analysis and Model Repairment: Demonstration in Medical Imaging

論文の概要: A Principled Approach to Failure Analysis and Model Repairment: Demonstration in Medical Imaging

arxiv url: http://arxiv.org/abs/2109.12347v1
Date: Sat, 25 Sep 2021 12:04:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-28 16:01:39.647404
Title: A Principled Approach to Failure Analysis and Model Repairment: Demonstration in Medical Imaging
Title（参考訳）: 故障解析とモデル修復の原理的アプローチ:医用画像における実証
Authors: Thomas Henn, Yasukazu Sakamoto, Cl\'ement Jacquet, Shunsuke Yoshizawa, Masamichi Andou, Stephen Tchen, Ryosuke Saga, Hiroyuki Ishihara, Katsuhiko Shimizu, Yingzhen Li and Ryutaro Tanno
Abstract要約: マシンラーニングモデルは通常、デプロイ後の予期せぬ失敗を示す。私たちは2つの重要な質問に答えることで、このプロセスの標準化と原則の導入を目指しています。そこで本研究では,タイプ内および型間一般化の測定により,特定された障害タイプの品質を検証できることを示唆する。我々は,以前に正しいデータの性能を維持しつつ,失敗タイプに対して高い精度を達成できた場合,モデルを修復すると考えることができると論じる。
参考スコア（独自算出の注目度）: 12.732665048388041
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Machine learning models commonly exhibit unexpected failures post-deployment due to either data shifts or uncommon situations in the training environment. Domain experts typically go through the tedious process of inspecting the failure cases manually, identifying failure modes and then attempting to fix the model. In this work, we aim to standardise and bring principles to this process through answering two critical questions: (i) how do we know that we have identified meaningful and distinct failure types?; (ii) how can we validate that a model has, indeed, been repaired? We suggest that the quality of the identified failure types can be validated through measuring the intra- and inter-type generalisation after fine-tuning and introduce metrics to compare different subtyping methods. Furthermore, we argue that a model can be considered repaired if it achieves high accuracy on the failure types while retaining performance on the previously correct data. We combine these two ideas into a principled framework for evaluating the quality of both the identified failure subtypes and model repairment. We evaluate its utility on a classification and an object detection tasks. Our code is available at https://github.com/Rokken-lab6/Failure-Analysis-and-Model-Repairment
Abstract（参考訳）: マシンラーニングモデルは通常、データシフトやトレーニング環境での異常な状況のために、デプロイ後の予期せぬ失敗を示す。ドメインの専門家は通常、手動で障害ケースを検査し、障害モードを特定し、モデルを修正しようとする、面倒なプロセスを経ます。本研究では,2つの重要な疑問に答えることによって,このプロセスの標準化と原則の導入を目指しています。 i) 意味があり、異なる障害タイプを特定できたことをどうやって知るか。 ; (ii)モデルが実際に修復されたことをどうやって検証できますか? 細調整後の型内および型間一般化を計測し,異なるサブタイピング手法を比較するための指標を導入することにより,識別された障害タイプの品質を検証することを提案する。さらに,先行したデータの性能を維持しつつ,障害タイプに対して高い精度を達成すれば,モデルが修復されると考えることもできる。これら2つのアイデアを,特定された障害サブタイプとモデル修復の両方の品質を評価するための原則付きフレームワークに組み合わせる。分類とオブジェクト検出タスクにおいて,その有用性を評価する。私たちのコードはhttps://github.com/Rokken-lab6/Failure-Analysis-and-Model-Repairmentで利用可能です。

関連論文リスト

Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
校正誤差と校正誤差は,訓練中に同時に最小化されないことを示す。我々は,早期停止とハイパーパラメータチューニングのための新しい指標を導入し,トレーニング中の改善誤差を最小限に抑える。本手法は,任意のアーキテクチャとシームレスに統合し,多様な分類タスクにおける性能を継続的に向上する。
論文参考訳（メタデータ） (2025-01-31T15:03:54Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
Automatic Discovery and Assessment of Interpretable Systematic Errors in Semantic Segmentation [0.5242869847419834]
本稿では,セグメンテーションモデルにおける体系的誤りを発見するための新しい手法を提案する。マルチモーダル・ファンデーション・モデルを用いてエラーを検索し、誤った性質とともに概念的リンクを用いてこれらのエラーの体系的性質を研究する。我々の研究は、これまでセマンティックセグメンテーションで過小評価されてきたモデル分析と介入への道を開く。
論文参考訳（メタデータ） (2024-11-16T17:31:37Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文参考訳（メタデータ） (2024-07-23T20:34:23Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
Repairing Neural Networks by Leaving the Right Past Behind [23.78437548836594]
機械学習モデルの予測失敗は、トレーニングデータの欠陥から生じることが多い。この研究は、目標とする障害を発生させたトレーニング例を特定し、それらに関する情報を消去することでモデルを修正するための一般的なフレームワークを開発する。
論文参考訳（メタデータ） (2022-07-11T12:07:39Z)
Exploring Strategies for Generalizable Commonsense Reasoning with Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。 2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文参考訳（メタデータ） (2021-09-07T03:13:06Z)
Defuse: Harnessing Unrestricted Adversarial Examples for Debugging Models Beyond Test Accuracy [11.265020351747916]
Defuseは、テストデータ以外のモデルエラーを自動的に検出し、修正する手法である。本稿では, 生成モデルを用いて, モデルによって誤分類された自然発生事例を探索する逆機械学習手法に着想を得たアルゴリズムを提案する。 Defuseはテストセットの一般化を維持しながら、微調整後のエラーを修正する。
論文参考訳（メタデータ） (2021-02-11T18:08:42Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)
Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文参考訳（メタデータ） (2020-11-10T22:23:25Z)
Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文参考訳（メタデータ） (2020-10-05T22:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。