論文の概要: Critical appraisal of artificial intelligence for rare-event recognition: principles and pharmacovigilance case studies
- arxiv url: http://arxiv.org/abs/2510.04341v1
- Date: Sun, 05 Oct 2025 20:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.594436
- Title: Critical appraisal of artificial intelligence for rare-event recognition: principles and pharmacovigilance case studies
- Title(参考訳): 希少物体認識のための人工知能の批判的評価--原理と薬物移動ケーススタディ
- Authors: G. Niklas Noren, Eva-Lisa Meldau, Johan Ellenius,
- Abstract要約: 高精細度AIアプリケーションは、目に見える精度が限られた実世界の価値を隠蔽する低頻度イベントをターゲットにしている。
希少な認識におけるAIの批判的評価に関する重要な考察を概説する。
薬物移動の枠組みを3つの研究に基づいてインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many high-stakes AI applications target low-prevalence events, where apparent accuracy can conceal limited real-world value. Relevant AI models range from expert-defined rules and traditional machine learning to generative LLMs constrained for classification. We outline key considerations for critical appraisal of AI in rare-event recognition, including problem framing and test set design, prevalence-aware statistical evaluation, robustness assessment, and integration into human workflows. In addition, we propose an approach to structured case-level examination (SCLE), to complement statistical performance evaluation, and a comprehensive checklist to guide procurement or development of AI models for rare-event recognition. We instantiate the framework in pharmacovigilance, drawing on three studies: rule-based retrieval of pregnancy-related reports; duplicate detection combining machine learning with probabilistic record linkage; and automated redaction of person names using an LLM. We highlight pitfalls specific to the rare-event setting including optimism from unrealistic class balance and lack of difficult positive controls in test sets - and show how cost-sensitive targets align model performance with operational value. While grounded in pharmacovigilance practice, the principles generalize to domains where positives are scarce and error costs may be asymmetric.
- Abstract(参考訳): 多くのハイテイクなAIアプリケーションは、目に見える精度が限られた実世界の価値を隠蔽できるような、低頻度のイベントをターゲットにしている。
関連するAIモデルは、専門家定義ルールや従来の機械学習から、分類に制約された生成LDMまで様々である。
問題フレーミングとテストセットの設計、有病率認識の統計評価、堅牢性評価、ヒューマンワークフローへの統合など、希少な認識におけるAIの重要な評価について概説する。
さらに、統計的性能評価を補完する構造化ケースレベル試験(SCLE)と、希少認識のためのAIモデルの調達または開発を導く包括的なチェックリストを提案する。
我々は、妊娠関連報告の規則に基づく検索、確率的記録リンクと機械学習を組み合わせた重複検出、LLMを用いた人名の自動再アクションの3つの研究に基づいて、薬物移動の枠組みをインスタンス化する。
非現実的なクラスバランスからの楽観主義やテストセットにおける難しいポジティブコントロールの欠如など、希少な状況に特有の落とし穴を強調し、コストに敏感なターゲットがモデルパフォーマンスと運用価値をどのように一致させるかを示します。
薬物移動の実践に基礎を置いているが、この原則は正の値が乏しく、エラーコストが非対称な領域に一般化される。
関連論文リスト
- RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - "Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners [0.0]
医療と医療の専門職教育において、AIは仮想的な標準化された患者を含む臨床能力の評価にますます利用されている。
ほとんどの評価はAIと人間のインターレータの信頼性に依存しており、ケース、学習者、ラッカーが共同でスコアを形作るための測定フレームワークが欠如している。
事例と評価条件をまたいだ堅牢な能力評価のための,オープンソースのプラットフォームと測定モデルを構築した。
論文 参考訳(メタデータ) (2026-01-26T02:47:28Z) - Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios [9.865786198063644]
受動的知識検索装置から自律的臨床エージェントへの大規模言語モデル(LLM)の移行は、静的精度から動的行動信頼性への評価のシフトを要求する。
本研究は, 歯科用LLMの能力境界を実証的に表し, 標準化された知識と安全で自律的な臨床実践のギャップを埋めるためのロードマップを提供する。
論文 参考訳(メタデータ) (2026-01-19T11:36:39Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - Training Compute Thresholds: Features and Functions in AI Regulation [0.7234862895932991]
米国とEUのレギュレータは、トレーニング計算に基づくしきい値を使用して、大規模社会被害のリスクを引き起こす可能性のあるGPAIモデルを特定している。
現在、トレーニング計算は、規制の監視とさらなる精査に値するGPAIモデルを特定するのに最も適した指標である、と我々は主張する。
GPAI技術と市場構造が進化するにつれて、規制当局は計算しきい値を更新し、他のメトリクスを規制審査プロセスに補完する必要がある。
論文 参考訳(メタデータ) (2024-05-17T14:10:24Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。