論文の概要: Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models
- arxiv url: http://arxiv.org/abs/2509.24186v1
- Date: Mon, 29 Sep 2025 02:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.686854
- Title: Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models
- Title(参考訳): 総合的正確性を超えて:80大言語モデルのトピック特化医療能力に関する心理学的ディープディーブ
- Authors: Zhimeng Luo, Lixin Wu, Adam Frisch, Daqing He,
- Abstract要約: 項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
- 参考スコア(独自算出の注目度): 6.362188639024662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly proposed for high-stakes medical applications, there has emerged a critical need for reliable and accurate evaluation methodologies. Traditional accuracy metrics fail inadequately as they neither capture question characteristics nor offer topic-specific insights. To address this gap, we introduce \textsc{MedIRT}, a rigorous evaluation framework grounded in Item Response Theory (IRT), the gold standard in high-stakes educational testing. Unlike previous research relying on archival data, we prospectively gathered fresh responses from 80 diverse LLMs on a balanced, 1,100-question USMLE-aligned benchmark. Using one unidimensional two-parameter logistic IRT model per topic, we estimate LLM's latent model ability jointly with question difficulty and discrimination, yielding more stable and nuanced performance rankings than accuracy alone. Notably, we identify distinctive ``spiky'' ability profiles, where overall rankings can be misleading due to highly specialized model abilities. While \texttt{GPT-5} was the top performer in a majority of domains (8 of 11), it was outperformed in Social Science and Communication by \texttt{Claude-3-opus}, demonstrating that even an overall 23rd-ranked model can hold the top spot for specific competencies. Furthermore, we demonstrate IRT's utility in auditing benchmarks by identifying flawed questions. We synthesize these findings into a practical decision-support framework that integrates our multi-factor competency profiles with operational metrics. This work establishes a robust, psychometrically grounded methodology essential for the safe, effective, and trustworthy deployment of LLMs in healthcare.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 高い精度の医療応用のためにますます提案されているため, 信頼性と正確な評価手法の必要性が高まっている。
従来の精度の指標は、質問の特徴を捉えたり、トピック固有の洞察を提供したりすることができないため、不十分である。
このギャップに対処するために,高水準の教育試験におけるゴールドスタンダードである IRT (Item Response Theory) に基づく厳密な評価フレームワークである \textsc{MedIRT} を紹介した。
アーカイブデータに依存する以前の研究とは異なり、我々は、バランスのとれた1,100のUSMLEアライメントベンチマークで、80の多様なLSMから新しいレスポンスを収集した。
1トピックあたりの1次元2パラメータロジスティックIRTモデルを用いて、LLMの潜在モデル能力と疑問の難易度と差別度を併用して推定し、精度のみよりも安定かつニュアンスの高い性能ランキングを得る。
特に,高度に専門化されたモデル能力により,総合的なランキングが誤解を招く可能性のある,特有の'spiky'能力プロファイルを同定する。
テキストト{GPT-5}は、多くのドメイン(11のうち8つ)でトップパフォーマーであったが、ソーシャルサイエンスとコミュニケーションでは「テキストト{Claude-3-opus}」より優れており、全体的な23位モデルでさえ特定の能力でトップの座を保てることを示した。
さらに、欠陥のある問題を特定することで、ベンチマークの監査におけるIRTの有用性を実証する。
我々はこれらの知見を,我々の多要素能力プロファイルと運用メトリクスを統合した,実践的な意思決定支援フレームワークに合成する。
この研究は、医療におけるLLMの安全で効果的で信頼性の高い展開に不可欠な、堅牢で心理的に根ざした方法論を確立する。
関連論文リスト
- RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。
本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文 参考訳(メタデータ) (2026-01-21T22:47:59Z) - An Expert-grounded benchmark of General Purpose LLMs in LCA [1.9645069537947935]
ライフサイクルアセスメント(LCA)を支援するツールとして,大規模言語モデル (LLM) が研究されている。
この研究は、LCAにおけるLSMのエキスパートによる最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2025-10-22T15:56:54Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。