論文の概要: AgentScore: Autoformulation of Deployable Clinical Scoring Systems
- arxiv url: http://arxiv.org/abs/2601.22324v1
- Date: Thu, 29 Jan 2026 21:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.068279
- Title: AgentScore: Autoformulation of Deployable Clinical Scoring Systems
- Title(参考訳): AgentScore: デプロイ可能な臨床検査システムの自動生成
- Authors: Silas Ruhrberg Estévez, Christopher Chiu, Mihaela van der Schaar,
- Abstract要約: 本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern clinical practice relies on evidence-based guidelines implemented as compact scoring systems composed of a small number of interpretable decision rules. While machine-learning models achieve strong performance, many fail to translate into routine clinical use due to misalignment with workflow constraints such as memorability, auditability, and bedside execution. We argue that this gap arises not from insufficient predictive power, but from optimizing over model classes that are incompatible with guideline deployment. Deployable guidelines often take the form of unit-weighted clinical checklists, formed by thresholding the sum of binary rules, but learning such scores requires searching an exponentially large discrete space of possible rule sets. We introduce AgentScore, which performs semantically guided optimization in this space by using LLMs to propose candidate rules and a deterministic, data-grounded verification-and-selection loop to enforce statistical validity and deployability constraints. Across eight clinical prediction tasks, AgentScore outperforms existing score-generation methods and achieves AUC comparable to more flexible interpretable models despite operating under stronger structural constraints. On two additional externally validated tasks, AgentScore achieves higher discrimination than established guideline-based scores.
- Abstract(参考訳): 現代の臨床実践は、少数の解釈可能な決定規則からなるコンパクトスコアリングシステムとして実装されたエビデンスに基づくガイドラインに依存している。
機械学習モデルは高いパフォーマンスを達成する一方で、記憶可能性や監査可能性、ベッドサイドの実行といったワークフローの制約が原因で、日常的な臨床利用に変換できないものも多い。
このギャップは、予測力の不足から生じるものではなく、ガイドラインの展開と互換性のないモデルクラスを最適化することによるものである、と我々は主張する。
デプロイ可能なガイドラインは、バイナリルールの総和をしきい値にすることで形成される、単重臨床チェックリストの形式を取ることが多いが、そのようなスコアを学習するには、可能なルールセットの指数的に大きな離散空間を探索する必要がある。
本稿では, LLMを用いて, 統計的妥当性と展開可能性の制約を強制する決定論的検証・選択ループを提案することで, この分野において意味論的に導出された最適化を行うエージェントスコアを提案する。
8つの臨床予測タスクにおいて、AgentScoreは既存のスコア生成方法より優れ、より柔軟な解釈可能なモデルに匹敵するAUCを実現する。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
関連論文リスト
- Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight [5.202988483354374]
本研究では,複雑なタスクの監視ベンチマークを,定期的に再評価すべき 'in-progress living document'' として提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを監査し,レラベル化する,系統的,内科的・内科的パイプラインを提案する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
論文 参考訳(メタデータ) (2025-12-22T18:59:34Z) - Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect [8.16102315566872]
同等のパフォーマンスを持つ複数のモデルの共存は、信頼できるデプロイメントと評価に根本的な課題をもたらします。
我々は,頑健なモデルアセスメントと選択のための2つの補完的ツールを提案する: 介入効率(IE)と摂動検証フレームワーク(PVF)。
IEはキャパシティを意識したメトリクスであり、限られた介入しか実現できない場合、モデルが実行可能な真の正をいかに効率的に識別するかを定量化する。
PVFは、データ摂動下でのモデルの安定性を評価するための構造化されたアプローチを導入し、ノイズやシフトした検証セット間で性能が最も不変なモデルを特定する。
論文 参考訳(メタデータ) (2025-11-18T10:21:07Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Q-Learning with Clustered-SMART (cSMART) Data: Examining Moderators in the Construction of Clustered Adaptive Interventions [3.9650359172757743]
クラスタ適応介入(cAI)は、結果を改善するためにクラスタレベルの介入をどのように調整するかを実践者の指導する一連の決定ルールである。
M-out-of-N Cluster Bootstrapを用いたクラスタ型Qラーニングフレームワークを導入し、最適なcAIを定義する上で、候補の調整変数のセットが有用かどうかを評価する。
論文 参考訳(メタデータ) (2025-05-01T19:24:39Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。