論文の概要: Evaluating Causal Explanation in Medical Reports with LLM-Based and Human-Aligned Metrics
- arxiv url: http://arxiv.org/abs/2506.18387v1
- Date: Mon, 23 Jun 2025 08:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.90459
- Title: Evaluating Causal Explanation in Medical Reports with LLM-Based and Human-Aligned Metrics
- Title(参考訳): LLM-based および Human-aligned Metrics を用いた医療報告における因果説明の評価
- Authors: Yousang Cho, Key-Sun Choi,
- Abstract要約: 本研究は, 自動診断報告における因果的説明の質を, 異なる評価指標がいかに正確に把握するかについて検討した。
我々は、BERTScore、Cosine similarity、BioSentVec、GPT-White、GPT-Blackの6つの指標を比較し、観察ベースと複数選択ベースのレポート生成という2つの入力タイプにわたる専門家の質的評価を行った。
- 参考スコア(独自算出の注目度): 0.6476298483207896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates how accurately different evaluation metrics capture the quality of causal explanations in automatically generated diagnostic reports. We compare six metrics: BERTScore, Cosine Similarity, BioSentVec, GPT-White, GPT-Black, and expert qualitative assessment across two input types: observation-based and multiple-choice-based report generation. Two weighting strategies are applied: one reflecting task-specific priorities, and the other assigning equal weights to all metrics. Our results show that GPT-Black demonstrates the strongest discriminative power in identifying logically coherent and clinically valid causal narratives. GPT-White also aligns well with expert evaluations, while similarity-based metrics diverge from clinical reasoning quality. These findings emphasize the impact of metric selection and weighting on evaluation outcomes, supporting the use of LLM-based evaluation for tasks requiring interpretability and causal reasoning.
- Abstract(参考訳): 本研究は, 自動診断報告における因果的説明の質を, 異なる評価指標がいかに正確に把握するかについて検討した。
我々は、BERTScore、Cosine similarity、BioSentVec、GPT-White、GPT-Blackの6つの指標を比較し、観察ベースと複数選択ベースのレポート生成という2つの入力タイプにわたる専門家の質的評価を行った。
2つの重み付け戦略が適用される: 1つはタスク固有の優先順位を反映し、もう1つはすべてのメトリクスに等しい重みを割り当てる。
以上の結果から,GPT-Blackは論理的コヒーレントかつ臨床的に有効な因果関係の物語を識別する上で,最も強力な識別力を示すことが明らかとなった。
GPT-Whiteは専門家の評価とよく一致しているが、類似性に基づくメトリクスは臨床推論の品質から分岐している。
これらの知見は, 計量選択と重み付けが評価結果に及ぼす影響を強調し, 解釈可能性や因果推論を必要とするタスクに対するLCMに基づく評価の活用を支援する。
関連論文リスト
- Evaluating Large Language Model Capabilities in Assessing Spatial Econometrics Research [0.0]
28の論文から、オリジナルかつ意図的に変更された「偽造」要約を作成しました。
その結果, LLMは変数選択のコヒーレンスを専門的に評価できるが, より深い側面を評価した場合, その性能は著しく変化することがわかった。
論文 参考訳(メタデータ) (2025-06-04T16:30:57Z) - Comparative assessment of fairness definitions and bias mitigation strategies in machine learning-based diagnosis of Alzheimer's disease from MR images [4.569587135821805]
本研究では,MCIとアルツハイマー病(AD)の診断のための機械学習モデル(ML)の公平性解析をMRIによる神経画像特徴から行う。
マルチコホートデータセットにおける年齢,人種,性別に関連するバイアスについて検討した。
その結果、年齢や人種に関連するバイアスの存在が明らかとなったが、有意な性別バイアスは観察されなかった。
論文 参考訳(メタデータ) (2025-05-29T15:07:19Z) - Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文 参考訳(メタデータ) (2025-04-03T13:32:08Z) - AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology [47.52685298426068]
麻酔学における大規模言語モデル(LLM)の推論能力を体系的に評価した。
AnesBenchは3段階にわたる麻酔学関連推論を評価するために設計された言語間ベンチマークである。
論文 参考訳(メタデータ) (2025-04-03T08:54:23Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - DocLens: Multi-aspect Fine-grained Evaluation for Medical Text Generation [37.58514130165496]
本稿では, 医療用テキストの完全性, 簡潔性, 帰属性を評価するための指標セットを提案する。
メトリクスは、インストラクションフォロー(プロプライエタリとオープンソースの両方)や教師付きエンタテインメントモデルなど、さまざまなタイプの評価者によって計算できる。
総合的な人間の研究によると、DocLensは既存の指標よりも医療専門家の判断とかなり高い一致を示している。
論文 参考訳(メタデータ) (2023-11-16T05:32:09Z) - Auditing ICU Readmission Rates in an Clinical Database: An Analysis of
Risk Factors and Clinical Outcomes [0.0]
本研究では,30日間の読解問題における臨床データ分類のための機械学習パイプラインを提案する。
公正監査は、平等機会、予測パリティ、偽陽性率パリティ、偽陰性率パリティ基準の格差を明らかにする。
この研究は、人工知能(AI)システムのバイアスと公平性に対処するために、研究者、政策立案者、実践者の協力的努力の必要性を示唆している。
論文 参考訳(メタデータ) (2023-04-12T17:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。