論文の概要: Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction
- arxiv url: http://arxiv.org/abs/2211.07047v1
- Date: Sun, 13 Nov 2022 23:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:30:09.718751
- Title: Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction
- Title(参考訳): 読み出し予測におけるxgboostよりも医師の単語感受性に適合する言語モデル分類器
- Authors: Grace Yang, Ming Cao, Lavender Y. Jiang, Xujin C. Liu, Alexander T.M.
Cheung, Hannah Weiss, Davied Kurland, Kyunghyun Cho, Eric K. Oermann
- Abstract要約: 語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
- 参考スコア(独自算出の注目度): 86.15787587540132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional evaluation metrics for classification in natural language
processing such as accuracy and area under the curve fail to differentiate
between models with different predictive behaviors despite their similar
performance metrics. We introduce sensitivity score, a metric that scrutinizes
models' behaviors at the vocabulary level to provide insights into disparities
in their decision-making logic. We assess the sensitivity score on a set of
representative words in the test set using two classifiers trained for hospital
readmission classification with similar performance statistics. Our experiments
compare the decision-making logic of clinicians and classifiers based on rank
correlations of sensitivity scores. The results indicate that the language
model's sensitivity score aligns better with the professionals than the xgboost
classifier on tf-idf embeddings, which suggests that xgboost uses some spurious
features. Overall, this metric offers a novel perspective on assessing models'
robustness by quantifying their discrepancy with professional opinions. Our
code is available on GitHub (https://github.com/nyuolab/Model_Sensitivity).
- Abstract(参考訳): 曲線の下の精度や領域といった自然言語処理における分類のための従来の評価基準は、類似のパフォーマンス指標にもかかわらず、異なる予測行動を持つモデル間で区別できない。
モデルの振る舞いを語彙レベルで精査し、意思決定ロジックの差異に関する洞察を提供する指標である感度スコアを導入する。
本研究は, 病院入所分類のための2つの分類器を用いて, テストセットにおける代表語群に対する感度スコアを評価した。
本実験は,感度スコアのランク相関に基づく臨床医と分類士の意思決定論理を比較した。
その結果, 言語モデルの感度スコアは, tf-idf埋め込みにおけるxgboost分類器よりも, プロとよく一致していることが示唆された。
全体として、この指標はモデルの堅牢性を評価するための新しい視点を提供する。
私たちのコードはgithubで入手できる(https://github.com/nyuolab/model_sensitivity)。
関連論文リスト
- Knowledge Trees: Gradient Boosting Decision Trees on Knowledge Neurons
as Probing Classifier [0.0]
変圧器ニューラルネットワーク層の出力表現におけるロジスティック回帰は、言語モデルの構文特性の探索に最もよく用いられる。
本研究では, 変圧器層の出力表現におけるロジスティック回帰を用いた場合よりも, 知識ニューロン層での勾配向上決定木を用いた方が有利であることを示す。
論文 参考訳(メタデータ) (2023-12-17T15:37:03Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation [24.224114300690758]
ニューラル分類器から得られる特徴空間の密度推定を利用して応答を評価するDernityを提案する。
我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。
論文 参考訳(メタデータ) (2023-05-08T14:10:40Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition [6.502694770864571]
Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
論文 参考訳(メタデータ) (2022-09-29T13:44:28Z) - Rethinking and Refining the Distinct Metric [61.213465863627476]
我々は、その期待に基づいて異なるトークンの数を再スケーリングすることで、異なるスコアの計算を洗練する。
実験的および理論的証拠の両面から,本手法が元の異なるスコアで示されるバイアスを効果的に除去することを示す。
論文 参考訳(メタデータ) (2022-02-28T07:36:30Z) - More Than Words: Towards Better Quality Interpretations of Text
Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。
1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文 参考訳(メタデータ) (2021-12-23T10:18:50Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。