論文の概要: VERIRAG: Healthcare Claim Verification via Statistical Audit in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2507.17948v1
- Date: Wed, 23 Jul 2025 21:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.626464
- Title: VERIRAG: Healthcare Claim Verification via Statistical Audit in Retrieval-Augmented Generation
- Title(参考訳): VerIRAG: 統計監査による地域別健康保険制度の検証
- Authors: Shubham Mohole, Hongjun Choi, Shusen Liu, Christine Klymko, Shashank Kushwaha, Derek Shi, Wesam Sakla, Sainyam Galhotra, Ruben Glatt,
- Abstract要約: VERIRAGは3つの重要な貢献を行うフレームワークである: (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Dynamic Acceptance Threshold (iii) Dynamic Acceptance Threshold (i)
- 参考スコア(独自算出の注目度): 12.545868971471844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems are increasingly adopted in clinical decision support, yet they remain methodologically blind-they retrieve evidence but cannot vet its scientific quality. A paper claiming "Antioxidant proteins decreased after alloferon treatment" and a rigorous multi-laboratory replication study will be treated as equally credible, even if the former lacked scientific rigor or was even retracted. To address this challenge, we introduce VERIRAG, a framework that makes three notable contributions: (i) the Veritable, an 11-point checklist that evaluates each source for methodological rigor, including data integrity and statistical validity; (ii) a Hard-to-Vary (HV) Score, a quantitative aggregator that weights evidence by its quality and diversity; and (iii) a Dynamic Acceptance Threshold, which calibrates the required evidence based on how extraordinary a claim is. Across four datasets-comprising retracted, conflicting, comprehensive, and settled science corpora-the VERIRAG approach consistently outperforms all baselines, achieving absolute F1 scores ranging from 0.53 to 0.65, representing a 10 to 14 point improvement over the next-best method in each respective dataset. We will release all materials necessary for reproducing our results.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは, 臨床診断支援においてますます採用されているが, 方法論的に盲目的に証拠を回収するが, 科学的品質を検証できない。
抗酸化タンパク質はアロフェロン処理後に減少し、前者が科学的厳格さを欠いたり、あるいは取り外されたとしても、厳格な多施設複製研究は同様に信頼できるものとして扱われる。
この課題に対処するために,3つの注目すべきコントリビューションを行うフレームワークであるVERIRAGを紹介します。
i) データ整合性及び統計的妥当性を含む方法論上の厳格性について各情報源を評価する11点チェックリスト。
(二)ハード・トゥ・ヴァレー(HV)スコア、その品質及び多様性により証拠を重み付けする定量的アグリゲータ
三 クレームがいかに異常であるかに基づいて必要な証拠を校正するダイナミックアクセプタンス・テレスホールド
4つのデータセットからなるリトラクション、コンフリクト、包括的、落ち着いた科学コーパス-VERIRAGアプローチは、すべてのベースラインを一貫して上回り、それぞれのデータセットにおける次のベストメソッドよりも10から14ポイント改善された絶対的なF1スコアを達成している。
結果の再生に必要なすべての資料を公開します。
関連論文リスト
- An Uncertainty-Aware Dynamic Decision Framework for Progressive Multi-Omics Integration in Classification Tasks [6.736267874971369]
我々は、オミクスデータ分類のための不確実性を考慮したマルチビュー動的決定フレームワークを提案する。
ヘテロジニアスなモジュラリティを統合するために、Dempster-Shafer理論に基づく融合戦略を用いる。
3つのデータセットでは、50%以上のケースが、単一のオミクスモダリティを使用して正確に分類された。
論文 参考訳(メタデータ) (2025-06-20T13:44:14Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z) - Arges: Spatio-Temporal Transformer for Ulcerative Colitis Severity Assessment in Endoscopy Videos [2.0735422289416605]
専門家のMES/UCEISアノテーションは時間を要するため、ラター間のばらつきに影響を受けやすい。
エンド・ツー・エンド(e2e)トレーニングを備えたCNNベースの弱い教師付きモデルでは、新しい疾患スコアへの一般化が欠如している。
アルジェス(Arges)は、内視鏡で病気の重症度を推定するために位置エンコーディングを組み込んだ深層学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-01T09:23:14Z) - uMedSum: A Unified Framework for Advancing Medical Abstractive Summarization [23.173826980480936]
現在の方法では、重要な情報を忠実に犠牲にしたり、情報提供の優先順位付けを行うときに信条を導入する場合が多い。
本稿では,5つの標準メトリクスを用いて,3つの多様なデータセットにまたがる6つの高度な抽象的要約手法のベンチマークを示す。
本稿では, 逐次的な断片化除去に新たなアプローチを導入し, 鍵を欠いた情報追加を行うモジュール型ハイブリッド要約フレームワーク uMedSum を提案する。
論文 参考訳(メタデータ) (2024-08-22T03:08:49Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - A robust kernel machine regression towards biomarker selection in
multi-omics datasets of osteoporosis for drug discovery [2.2897244874280043]
本稿では,ロバスト・カーネル・マシン・レグレッション(RobMR)を提案する。
実験により, 提案手法は骨粗しょう症の関連因子を効果的に同定することを示した。
提案手法は、利用可能なあらゆる疾患モデルマルチオミクスデータセットに適用できる。
論文 参考訳(メタデータ) (2022-01-13T16:39:46Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - A standardized framework for risk-based assessment of treatment effect
heterogeneity in observational healthcare databases [60.07352590494571]
本研究の目的は,この手法を標準化されたスケーラブルなフレームワークを用いて観測環境に拡張することであった。
アンジオテンシン変換酵素阻害薬(ACE)とβ阻害薬の3つの効果と6つの安全性に対する効果を評価することにより,我々の枠組みを実証する。
論文 参考訳(メタデータ) (2020-10-13T14:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。