論文の概要: Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering
- arxiv url: http://arxiv.org/abs/2603.06271v1
- Date: Fri, 06 Mar 2026 13:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.796899
- Title: Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering
- Title(参考訳): エージェント検索強化推論は、放射線学的質問応答におけるモデル可変性の下での集団的信頼性を左右する
- Authors: Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh,
- Abstract要約: エージェント検索強化推論パイプラインは、より大きな言語モデルが臨床決定支援に外部証拠を組み込むかを構築するために、ますます使用されている。
これらのシステムは、計算済みのドメイン知識を反復的に検索し、回答の選択の前に構造化されたレポートに合成する。
このようなパイプラインはパフォーマンスを向上させることができるが、モデルの可変性の下での信頼性への影響は、まだ不明である。
- 参考スコア(独自算出の注目度): 1.295312759062166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic retrieval-augmented reasoning pipelines are increasingly used to structure how large language models (LLMs) incorporate external evidence in clinical decision support. These systems iteratively retrieve curated domain knowledge and synthesize it into structured reports before answer selection. Although such pipelines can improve performance, their impact on reliability under model variability remains unclear. In real-world deployment, heterogeneous models may align, diverge, or synchronize errors in ways not captured by accuracy. We evaluated 34 LLMs on 169 expert-curated publicly available radiology questions, comparing zero-shot inference with a radiology-specific multi-step agentic retrieval condition in which all models received identical structured evidence reports derived from curated radiology knowledge. Agentic inference reduced inter-model decision dispersion (median entropy 0.48 vs. 0.13) and increased robustness of correctness across models (mean 0.74 vs. 0.81). Majority consensus also increased overall (P<0.001). Consensus strength and robust correctness remained correlated under both strategies (\r{ho}=0.88 for zero-shot; \r{ho}=0.87 for agentic), although high agreement did not guarantee correctness. Response verbosity showed no meaningful association with correctness. Among 572 incorrect outputs, 72% were associated with moderate or high clinically assessed severity, although inter-rater agreement was low (\k{appa}=0.02). Agentic retrieval therefore was associated with more concentrated decision distributions, stronger consensus, and higher cross-model robustness of correctness. These findings suggest that evaluating agentic systems through accuracy or agreement alone may not always be sufficient, and that complementary analyses of stability, cross-model robustness, and potential clinical impact are needed to characterize reliability under model variability.
- Abstract(参考訳): エージェント検索強化推論パイプラインは、より大きな言語モデル(LLM)が臨床決定支援に外部の証拠を組み込むかを構築するために、ますます使われてきている。
これらのシステムは、計算済みのドメイン知識を反復的に検索し、回答の選択の前に構造化されたレポートに合成する。
このようなパイプラインはパフォーマンスを向上させることができるが、モデルの可変性の下での信頼性への影響は、まだ不明である。
実世界の展開では、異種モデルは精度で捉えられない方法でエラーを調整、発散、同期する。
専門家による169件の公開放射線学質問に対して34件のLSMを評価し,ゼロショット推論と放射線学固有の多段階エージェント検索条件を比較した。
エージェント推論によりモデル間決定分散(中間エントロピー0.48 vs. 0.13)が減少し,モデル間の正しさの堅牢性(平均0.74 vs. 0.81)が向上した。
P<0.001。
両戦略(ゼロショットは\r{ho}=0.88、エージェントショットは \r{ho}=0.87、エージェントショットは \r{ho}=0。
正答率には有意な相関は認められなかった。
572項目のうち72%が中等度または高評価の重症度に関連していたが、レイター間合意は低かった(\k{appa}=0.02)。
エージェント検索は, より集中的な決定分布, より強いコンセンサス, 正確性のクロスモデルロバスト性に関連していた。
これらの結果から, 精度や合意だけでエージェントシステムを評価することは必ずしも十分ではなく, 安定性, クロスモデルロバスト性, および潜在的な臨床効果の相補的分析が, モデルの変動性の下での信頼性を特徴づけるために必要であることが示唆された。
関連論文リスト
- The Drill-Down and Fabricate Test (DDFT): A Protocol for Measuring Epistemic Robustness in Language Models [0.0]
現在の言語モデル評価は、理想的な条件下でモデルが知っていることを計測するが、現実的なストレス下でそれをどれだけ堅牢に知っているかは測定しない。
本稿では,ロバスト性を測定するプロトコルであるDrill-Down Fabricate Test (DDFT)を紹介する。
フラッグシップモデルはスケールにもかかわらず脆さを示すのに対して、小さなモデルは堅牢なパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2025-12-29T20:29:09Z) - An Explainable and Fair AI Tool for PCOS Risk Assessment: Calibration, Subgroup Equity, and Interactive Clinical Deployment [0.10026496861838446]
本稿では,多嚢胞性卵巣症候群(PCOS)の予測のための,公平で解釈可能な機械学習フレームワークを提案する。
このフレームワークは、SHAPに基づく特徴属性と人口統計監査を統合し、予測的説明と観察的差異を関連付ける。
StreamlitベースのWebインターフェースは、リアルタイムPCOSリスク評価、ロッテルダム基準評価、インタラクティブな「What-if」分析を可能にする。
論文 参考訳(メタデータ) (2025-11-08T16:14:56Z) - Uncovering Overconfident Failures in CXR Models via Augmentation-Sensitivity Risk Scoring [1.9837702647603577]
胸部X線写真(CXR)症例を同定するために,ASRS(Augmentation-sensitive risk score)フレームワークを提案する。
ASRSのスコアは、サンプルを安定四成分に成層化し、非常に敏感なケースではリコールがかなり低い。
ASRSは、選択的な予測と臨床レビューのためのラベルなしの手段を提供し、医療AIの公正性と安全性を改善している。
論文 参考訳(メタデータ) (2025-10-02T05:15:40Z) - Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning [19.099363114326355]
大規模言語モデル(LLM)エージェントは、構造化されたバイオメディカルデータ環境にますますデプロイされる。
クエリ条件付きマルチテーブル要約のための不確実性認識エージェントを提案する。
論文 参考訳(メタデータ) (2025-09-02T15:12:10Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。