論文の概要: How Reliable are Model Diagnostics?
- arxiv url: http://arxiv.org/abs/2105.05641v1
- Date: Wed, 12 May 2021 13:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 18:44:18.682157
- Title: How Reliable are Model Diagnostics?
- Title(参考訳): モデル診断はどの程度信頼できるのか?
- Authors: Vamsi Aribandi, Yi Tay, Donald Metzler
- Abstract要約: 学習済み言語モデルに対する最近の3つの診断テストを批判的に検討する。
確率ベースと表現ベースのモデル診断は、以前想定したほど信頼できないことが分かりました。
- 参考スコア(独自算出の注目度): 42.093455517364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the pursuit of a deeper understanding of a model's behaviour, there is
recent impetus for developing suites of probes aimed at diagnosing models
beyond simple metrics like accuracy or BLEU. This paper takes a step back and
asks an important and timely question: how reliable are these diagnostics in
providing insight into models and training setups? We critically examine three
recent diagnostic tests for pre-trained language models, and find that
likelihood-based and representation-based model diagnostics are not yet as
reliable as previously assumed. Based on our empirical findings, we also
formulate recommendations for practitioners and researchers.
- Abstract(参考訳): モデルの振る舞いをより深く理解するために、精度やbleuのような単純な測定基準を超えたモデル診断を目的としたプローブのスイートを開発するための最近の動きがある。
モデルやトレーニングのセットアップに関する洞察を提供する上で,これらの診断はどの程度信頼できるのか?
我々は,事前学習された言語モデルの3つの最近の診断試験を批判的に検討し,確率ベースおよび表現ベースモデル診断は,従来考えられていたほど信頼できないことを見出した。
また,経験的知見に基づいて,実践者や研究者の推薦を定式化する。
関連論文リスト
- Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。
私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文 参考訳(メタデータ) (2024-02-15T17:05:48Z) - Enhancing Robustness in Biomedical NLI Models: A Probing Approach for
Clinical Trials [0.0]
大規模言語モデルは、会話AI、コンテンツ生成、情報検索、ビジネスインテリジェンス、医療など、さまざまな分野や産業に革命をもたらした。
ここでは,Sci-5モデルの検討にmnestic probing(mnestic probing)を用いた。
論文 参考訳(メタデータ) (2024-02-04T16:18:01Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Taming Detection Transformers for Medical Object Detection [1.3396454259579595]
本稿では,検出TR(Detection TRansformer)モデルの有効性について検討する。
以前の研究とは対照的に、これらのモデルはアンカーや手動のボリュームに頼らずに、一連のオブジェクトを直接予測する。
4つのデータセット上で,DeTR,Conditional DETR,DINO DETRの3つのモデルを用いて広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-27T13:46:15Z) - Deep Reinforcement Learning Framework for Thoracic Diseases
Classification via Prior Knowledge Guidance [49.87607548975686]
関連疾患に対するラベル付きデータの不足は、正確な診断にとって大きな課題となる。
本稿では,診断エージェントの学習を指導するための事前知識を導入する,新しい深層強化学習フレームワークを提案する。
提案手法の性能はNIHX-ray 14とCheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-06-02T01:46:31Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - This Patient Looks Like That Patient: Prototypical Networks for
Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。
本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。
利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-16T10:12:07Z) - Towards Evaluating the Robustness of Deep Diagnostic Models by
Adversarial Attack [38.480886577088384]
近年の研究では、深部診断モデルは推論過程において堅牢でないことが示されている。
逆の例は、人間に容易に認識されないよく設計された摂動です。
我々は,深部診断モデルの逆行例を扱うための2つの新しい防御法を考案した。
論文 参考訳(メタデータ) (2021-03-05T02:24:47Z) - Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文 参考訳(メタデータ) (2020-11-10T22:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。