論文の概要: Healthcare LLM Benchmarks Are Only as Good as Their Explicit Assumptions
- arxiv url: http://arxiv.org/abs/2605.22612v1
- Date: Thu, 21 May 2026 15:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.323453
- Title: Healthcare LLM Benchmarks Are Only as Good as Their Explicit Assumptions
- Title(参考訳): 医療用LLMのベンチマークは明示的な見積もりに匹敵する
- Authors: Naveen Raman, Santiago Cortes-Gomez, Mateo Dulce Rubio, Fei Fang, Bryan Wilder,
- Abstract要約: 本稿では,会話データからのみテスト可能なタスクと,結果データと行動研究を必要とする結果の2つのカテゴリに,仮定の分類を提案する。
我々は,医療RTTをケーススタディとして振り返って分析し,そのギャップがほぼ同じ大きさのタスクと結果のギャップに自然に分けることを発見した。
- 参考スコア(独自算出の注目度): 22.299021697499196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are necessary for healthcare evaluation, but are not sufficient for predicting deployment performance. Our position is that the evaluation--deployment gap arises not because of poorly designed benchmarks, but from implicit assumptions about how users interact with models that cannot be surfaced from benchmarks alone. To make this precise, we propose a classification of assumptions into two categories: task, which can be tested from conversation data alone, and outcome, which requires outcome data and behavioral studies for testing. Critically, outcome assumptions depend on human behavior, something that even well-designed benchmarks cannot directly observe. To demonstrate the operationality of this framework, we retrospectively analyze a healthcare RCT as a case study and find that the gap naturally separates into task and outcome gaps of roughly equal size. To address this, we make two contributions: first, we propose BenchmarkCards, an artifact that documents assumptions, and second, we propose staged evaluation, a procedure that systematically tests assumptions and evaluates performance.
- Abstract(参考訳): ベンチマークは医療評価に必要だが、デプロイメントのパフォーマンスを予測するには不十分だ。
我々の立場では、評価-デプロイギャップは、設計が不十分なベンチマークではなく、ユーザーがベンチマークだけでは表面化できないモデルとどのように相互作用するかという暗黙の仮定によって生じる。
そこで本研究では,会話データからのみテスト可能なタスクと,結果データと行動研究を必要とする結果の2つのカテゴリに,仮定の分類を提案する。
批判的に、結果の仮定は人間の行動に依存するが、よく設計されたベンチマークでさえ直接観察できない。
本フレームワークの運用性を実証するため,医療用RCTをケーススタディとして遡及的に分析し,そのギャップがほぼ同じ大きさのタスクと成果のギャップに自然に分離されることを見出した。
まず,仮定を文書化する人工物であるBenchmarkCardsを提案し,次に,仮説を体系的に検証し,性能を評価する手順であるステージド評価を提案する。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs [48.36707944399574]
バイブテストが実際にどのように機能するかを研究し、その後、体系的な分析を支援するために形式化する。
コーディングベンチマークの実験では、パーソナライズされたプロンプトとユーザ認識評価を組み合わせることで、どのモデルが好まれるかを変更できることがわかった。
論文 参考訳(メタデータ) (2026-04-15T17:57:08Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - Reassessing the Validity of Spurious Correlations Benchmarks [13.056731788383257]
提案手法は,問題に対して最も類似したベンチマークを用いて,実践者がメソッドを選択するためのレシピである。
特定のベンチマークは、メソッドパフォーマンスの有意義な尺度ではなく、いくつかのメソッドは、広く使われるには十分な堅牢性を持っていない。
論文 参考訳(メタデータ) (2024-09-06T11:05:26Z) - Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks [2.1899189033259305]
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
論文 参考訳(メタデータ) (2024-04-25T18:35:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。