論文の概要: Performance Assessment Strategies for Generative AI Applications in Healthcare
- arxiv url: http://arxiv.org/abs/2509.08087v1
- Date: Tue, 09 Sep 2025 18:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.226886
- Title: Performance Assessment Strategies for Generative AI Applications in Healthcare
- Title(参考訳): 医療におけるジェネレーティブAIアプリケーションのパフォーマンス評価戦略
- Authors: Victor Garcia, Mariia Sidulova, Aldo Badano,
- Abstract要約: ジェネレーティブ・人工知能(GenAI)は、人工知能の新たなパラダイムであり、医療分野で応用されている。
我々は、医療・医療機器におけるGenAIアプリケーションの性能を評価するための最先端手法について論じる。
- 参考スコア(独自算出の注目度): 1.0486921990935787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (GenAI) represent an emerging paradigm within artificial intelligence, with applications throughout the medical enterprise. Assessing GenAI applications necessitates a comprehensive understanding of the clinical task and awareness of the variability in performance when implemented in actual clinical environments. Presently, a prevalent method for evaluating the performance of generative models relies on quantitative benchmarks. Such benchmarks have limitations and may suffer from train-to-the-test overfitting, optimizing performance for a specified test set at the cost of generalizability across other task and data distributions. Evaluation strategies leveraging human expertise and utilizing cost-effective computational models as evaluators are gaining interest. We discuss current state-of-the-art methodologies for assessing the performance of GenAI applications in healthcare and medical devices.
- Abstract(参考訳): ジェネレーティブ・人工知能(GenAI)は、人工知能の新たなパラダイムであり、医療分野で応用されている。
GenAI の応用を評価するには,臨床業務の包括的理解と実際の臨床環境におけるパフォーマンスの多様性の認識が必要である。
現在、生成モデルの性能を評価するための一般的な手法は、定量的なベンチマークに依存している。
このようなベンチマークには制限があり、テストのオーバーフィッティングに悩まされ、特定のテストセットのパフォーマンスを他のタスクやデータ分散の一般化コストで最適化する。
人的知識を活用し,費用対効果の計算モデルを評価対象として活用する評価戦略が注目されている。
我々は、医療・医療機器におけるGenAIアプリケーションの性能を評価するための最先端手法について論じる。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - Evaluating Generative AI-Enhanced Content: A Conceptual Framework Using Qualitative, Quantitative, and Mixed-Methods Approaches [0.0]
Generative AI(GenAI)は、コンテント生成に革命をもたらし、言語コヒーレンス、可読性、全体的な品質を改善するためのトランスフォーメーション機能を提供する。
本論文は,GenAIモデルの性能評価のための定性的,定量的,混合方法論の研究アプローチの応用を探求する。
論文 参考訳(メタデータ) (2024-11-26T23:34:07Z) - A Survey of Models for Cognitive Diagnosis: New Developments and Future Directions [66.40362209055023]
本研究の目的は,認知診断の現在のモデルについて,機械学習を用いた新たな展開に注目した調査を行うことである。
モデル構造,パラメータ推定アルゴリズム,モデル評価方法,適用例を比較して,認知診断モデルの最近の傾向を概観する。
論文 参考訳(メタデータ) (2024-07-07T18:02:00Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Explainable AI for clinical and remote health applications: a survey on
tabular and time series data [3.655021726150368]
XAIは、特に医療において、さまざまな研究領域やデータタイプに同じ関心を集めていない点に注意が必要だ。
本稿は,過去5年間の文献を概観し,生成した説明のタイプと,それらの関連性や品質を評価するための取り組みについて述べる。
論文 参考訳(メタデータ) (2022-09-14T10:01:29Z) - Human Activity Recognition using Wearable Sensors: Review, Challenges,
Evaluation Benchmark [0.0]
ウェアラブルセンサに基づくヒューマンアクティビティ認識におけるトップパフォーマンス技術に関する広範な文献レビューを実施します。
6つの公開データセットを用いて,最先端技術に標準評価ベンチマークを適用する。
また,改良された手作り機能とニューラルネットワークアーキテクチャを組み合わせた,実験的に改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-05T17:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。