Fugu-MT 論文翻訳(概要): Clinical Notes Reveal Physician Fatigue

論文の概要: Clinical Notes Reveal Physician Fatigue

arxiv url: http://arxiv.org/abs/2312.03077v1
Date: Tue, 5 Dec 2023 19:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 17:03:26.112731
Title: Clinical Notes Reveal Physician Fatigue
Title（参考訳）: 理学療法士の疲労に関する臨床的考察
Authors: Chao-Chun Hsu, Ziad Obermeyer, Chenhao Tan
Abstract要約: 疲労した医師が書いたメモを特定するためにモデルを訓練する。黒とヒスパニックの患者は白人よりも12%と21%高い疲労を予測している。我々のモデルは、疲労した医師がより予測可能なノートを書くことを示している。
参考スコア（独自算出の注目度）: 25.544142231808205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Physicians write notes about patients. In doing so, they reveal much about themselves. Using data from 129,228 emergency room visits, we train a model to identify notes written by fatigued physicians -- those who worked 5 or more of the prior 7 days. In a hold-out set, the model accurately identifies notes written by these high-workload physicians, and also flags notes written in other high-fatigue settings: on overnight shifts, and after high patient volumes. Model predictions also correlate with worse decision-making on at least one important metric: yield of testing for heart attack is 18% lower with each standard deviation increase in model-predicted fatigue. Finally, the model indicates that notes written about Black and Hispanic patients have 12% and 21% higher predicted fatigue than Whites -- larger than overnight vs. daytime differences. These results have an important implication for large language models (LLMs). Our model indicates that fatigued doctors write more predictable notes. Perhaps unsurprisingly, because word prediction is the core of how LLMs work, we find that LLM-written notes have 17% higher predicted fatigue than real physicians' notes. This indicates that LLMs may introduce distortions in generated text that are not yet fully understood.
Abstract（参考訳）: 医師は患者のメモを書きます。そうすることで、彼らは自分自身について多くを明らかにします。 129,228件の救急室訪問のデータを使って、疲労した医師が書いたメモを識別するモデルを訓練した。ホールドアウトセットでは、モデルがこれらの高負荷の医師によって書かれたメモを正確に識別し、他の高負荷設定で書かれたノートをフラグする。モデル予測は、少なくとも1つの重要な指標において、より悪い意思決定と相関する: 心臓発作に対するテストの利得は、モデル予測疲労の標準偏差の増加とともに18%低い。最後に、黒とヒスパニックの患者について書かれたメモは、白人よりも12%と21%高い疲労を予測していることを示している。これらの結果は、大きな言語モデル(LLM)に重要な意味を持つ。我々のモデルは、疲労した医師がより予測可能なメモを書くことを示している。意外なことに、単語予測がLSMの動作のコアであるため、LSMで書かれたノートは実際の医師のノートよりも17%高い疲労を予測している。これは、LLMがまだ完全に理解されていない生成テキストに歪みをもたらす可能性があることを示している。

関連論文リスト

DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。我々はMIMIC-IVからICU排出音符のデータセットを構築した。汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文参考訳（メタデータ） (2025-06-18T10:42:22Z)
Personalized Prediction Models for Changes in Knee Pain among Patients with Osteoarthritis Participating in Supervised Exercise and Education [0.0]
膝関節症(英語: Knee osteoarthritis, OA)は、運動性障害と生活の質を低下させる慢性疾患である。 OA症状の痛みと機能的制限を管理するための運動療法と患者教育のメリットが証明されているにもかかわらず、これらの戦略は、しばしば未利用である。予測を改善するには、GLA:D以外の新しい変数が必要である。
論文参考訳（メタデータ） (2024-10-16T14:15:01Z)
WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。 LM/LLMの4つの驚くべき結果が明らかになった。
論文参考訳（メタデータ） (2024-06-17T19:50:40Z)
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文参考訳（メタデータ） (2024-06-10T04:07:09Z)
Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。私たちのゴールは自閉症の基準に対応する行動のラベル付けです。データの増大はリコールを13%増加させたが、精度は16%低下した。
論文参考訳（メタデータ） (2024-05-08T03:18:12Z)
Equity in Healthcare: Analyzing Disparities in Machine Learning Predictions of Diabetic Patient Readmissions [2.321323878201932]
本研究では,糖尿病患者に対して,機械学習(ML)モデルを用いて患者の入院容積を正確に予測する方法について検討した。私たちはDeep Learning、Generalized Linear Models、Gradient Boosting Machines (GBM)、Naive Bayesといったモデルを比較しました。 GBMは84.3%のF1スコアと82.2%の精度で、人口統計学的に読み書きを正確に予測した。
論文参考訳（メタデータ） (2024-03-27T23:49:22Z)
Temperature-scaling surprisal estimates improve fit to human reading times -- but does it do so for the "right reasons"? [15.773775387121097]
大規模な言語モデルのキャリブレーションは,通常モデルサイズによって改善されることを示す。温度スケーリングの確率は、読み取り時間に体系的に適合することがわかった。
論文参考訳（メタデータ） (2023-11-15T19:34:06Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
HuatuoGPT, towards Taming Language Model to Be a Doctor [67.96794664218318]
HuatuoGPTは医療相談のための大規模言語モデル(LLM)である。我々は,ChatGPTのテクティット蒸留データと,教師付き微調整段階の医師のテクティトゥルワールドデータの両方を活用する。
論文参考訳（メタデータ） (2023-05-24T11:56:01Z)
Navigating the Grey Area: How Expressions of Uncertainty and Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文参考訳（メタデータ） (2023-02-26T23:46:29Z)
MSED: a multi-modal sleep event detection model for clinical sleep analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文参考訳（メタデータ） (2021-01-07T13:08:44Z)
Enhancing the Interpretability of Deep Models in Heathcare Through Attention: Application to Glucose Forecasting for Diabetic People [4.692400531340393]
我々は,タイプ2 IDIABとタイプ1 OhioT1DMデータセットのRETAINモデルを評価する。我々は、RETAINモデルが精度と解釈可能性の間に非常に良い妥協をもたらすことを示した。
論文参考訳（メタデータ） (2020-09-08T13:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。