論文の概要: BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark
- arxiv url: http://arxiv.org/abs/2107.08189v1
- Date: Sat, 17 Jul 2021 05:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:40:53.547230
- Title: BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark
- Title(参考訳): BEDS-Bench:分散シフト下におけるEHRモデルの挙動--ベンチマーク
- Authors: Anand Avati, Martin Seneviratne, Emily Xue, Zhen Xu, Balaji
Lakshminarayanan and Andrew M. Dai
- Abstract要約: OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
- 参考スコア(独自算出の注目度): 21.040754460129854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has recently demonstrated impressive progress in predictive
accuracy across a wide array of tasks. Most ML approaches focus on
generalization performance on unseen data that are similar to the training data
(In-Distribution, or IND). However, real world applications and deployments of
ML rarely enjoy the comfort of encountering examples that are always IND. In
such situations, most ML models commonly display erratic behavior on
Out-of-Distribution (OOD) examples, such as assigning high confidence to wrong
predictions, or vice-versa. Implications of such unusual model behavior are
further exacerbated in the healthcare setting, where patient health can
potentially be put at risk. It is crucial to study the behavior and robustness
properties of models under distributional shift, understand common failure
modes, and take mitigation steps before the model is deployed. Having a
benchmark that shines light upon these aspects of a model is a first and
necessary step in addressing the issue. Recent work and interest in increasing
model robustness in OOD settings have focused more on image modality, while the
Electronic Health Record (EHR) modality is still largely under-explored. We aim
to bridge this gap by releasing BEDS-Bench, a benchmark for quantifying the
behavior of ML models over EHR data under OOD settings. We use two open access,
de-identified EHR datasets to construct several OOD data settings to run tests
on, and measure relevant metrics that characterize crucial aspects of a model's
OOD behavior. We evaluate several learning algorithms under BEDS-Bench and find
that all of them show poor generalization performance under distributional
shift in general. Our results highlight the need and the potential to improve
robustness of EHR models under distributional shift, and BEDS-Bench provides
one way to measure progress towards that goal.
- Abstract(参考訳): 機械学習は最近、幅広いタスクにわたる予測精度の顕著な進歩を実証した。
ほとんどのMLアプローチは、トレーニングデータ(In-Distribution、IND)に類似した、見えないデータに対する一般化のパフォーマンスに焦点を当てている。
しかし、MLの実際のアプリケーションやデプロイは、常にINDである例に遭遇することの快適さを享受することは滅多にありません。
このような状況では、ほとんどのmlモデルは、誤った予測に高い信頼性を割り当てる、あるいは逆を割り当てるといった、分散外(ood)の例でerraticな振る舞いを示すことが多い。
このような異常なモデル行動の意義は、患者の健康を危険にさらす可能性がある医療環境においてさらに悪化する。
分散シフト下でのモデルの挙動とロバスト性の研究、共通の障害モードの理解、モデルのデプロイ前に緩和策を取ることが重要である。
モデルのこれらの側面に光を当てるベンチマークを持つことは、問題に対処するための最初の、必要なステップである。
近年のOOD設定におけるモデルロバスト性向上への関心は画像モダリティに焦点が当てられているが、Electronic Health Record(EHR)モダリティはいまだに未調査である。
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースすることによって、このギャップを埋めることを目指している。
2つのオープンアクセス、未識別のEHRデータセットを使用して、複数のOODデータ設定を構築してテストを実行し、モデルのOOD動作の重要な側面を特徴づける関連するメトリクスを測定します。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能が低かった。
その結果,分布シフト下でのehrモデルのロバスト性向上の必要性と可能性を強調し,beds-benchは,その目標に向けた進捗を測定する一つの方法を提供している。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。