論文の概要: Critical appraisal of artificial intelligence for rare-event recognition: principles and pharmacovigilance case studies
- arxiv url: http://arxiv.org/abs/2510.04341v1
- Date: Sun, 05 Oct 2025 20:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.594436
- Title: Critical appraisal of artificial intelligence for rare-event recognition: principles and pharmacovigilance case studies
- Title(参考訳): 希少物体認識のための人工知能の批判的評価--原理と薬物移動ケーススタディ
- Authors: G. Niklas Noren, Eva-Lisa Meldau, Johan Ellenius,
- Abstract要約: 高精細度AIアプリケーションは、目に見える精度が限られた実世界の価値を隠蔽する低頻度イベントをターゲットにしている。
希少な認識におけるAIの批判的評価に関する重要な考察を概説する。
薬物移動の枠組みを3つの研究に基づいてインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many high-stakes AI applications target low-prevalence events, where apparent accuracy can conceal limited real-world value. Relevant AI models range from expert-defined rules and traditional machine learning to generative LLMs constrained for classification. We outline key considerations for critical appraisal of AI in rare-event recognition, including problem framing and test set design, prevalence-aware statistical evaluation, robustness assessment, and integration into human workflows. In addition, we propose an approach to structured case-level examination (SCLE), to complement statistical performance evaluation, and a comprehensive checklist to guide procurement or development of AI models for rare-event recognition. We instantiate the framework in pharmacovigilance, drawing on three studies: rule-based retrieval of pregnancy-related reports; duplicate detection combining machine learning with probabilistic record linkage; and automated redaction of person names using an LLM. We highlight pitfalls specific to the rare-event setting including optimism from unrealistic class balance and lack of difficult positive controls in test sets - and show how cost-sensitive targets align model performance with operational value. While grounded in pharmacovigilance practice, the principles generalize to domains where positives are scarce and error costs may be asymmetric.
- Abstract(参考訳): 多くのハイテイクなAIアプリケーションは、目に見える精度が限られた実世界の価値を隠蔽できるような、低頻度のイベントをターゲットにしている。
関連するAIモデルは、専門家定義ルールや従来の機械学習から、分類に制約された生成LDMまで様々である。
問題フレーミングとテストセットの設計、有病率認識の統計評価、堅牢性評価、ヒューマンワークフローへの統合など、希少な認識におけるAIの重要な評価について概説する。
さらに、統計的性能評価を補完する構造化ケースレベル試験(SCLE)と、希少認識のためのAIモデルの調達または開発を導く包括的なチェックリストを提案する。
我々は、妊娠関連報告の規則に基づく検索、確率的記録リンクと機械学習を組み合わせた重複検出、LLMを用いた人名の自動再アクションの3つの研究に基づいて、薬物移動の枠組みをインスタンス化する。
非現実的なクラスバランスからの楽観主義やテストセットにおける難しいポジティブコントロールの欠如など、希少な状況に特有の落とし穴を強調し、コストに敏感なターゲットがモデルパフォーマンスと運用価値をどのように一致させるかを示します。
薬物移動の実践に基礎を置いているが、この原則は正の値が乏しく、エラーコストが非対称な領域に一般化される。
関連論文リスト
- Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Training Compute Thresholds: Features and Functions in AI Regulation [0.7234862895932991]
米国とEUのレギュレータは、トレーニング計算に基づくしきい値を使用して、大規模社会被害のリスクを引き起こす可能性のあるGPAIモデルを特定している。
現在、トレーニング計算は、規制の監視とさらなる精査に値するGPAIモデルを特定するのに最も適した指標である、と我々は主張する。
GPAI技術と市場構造が進化するにつれて、規制当局は計算しきい値を更新し、他のメトリクスを規制審査プロセスに補完する必要がある。
論文 参考訳(メタデータ) (2024-05-17T14:10:24Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。