論文の概要: DrugClaw and DrugAudit: A Primary-Source-Grounded Agent and Authority-Aware Benchmark for Drug-Information Question Answering
- arxiv url: http://arxiv.org/abs/2606.01434v1
- Date: Sun, 31 May 2026 20:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.69999
- Title: DrugClaw and DrugAudit: A Primary-Source-Grounded Agent and Authority-Aware Benchmark for Drug-Information Question Answering
- Title(参考訳): ドラッグクローとドラッグオーディット : 薬物情報質問応答のための原源的エージェントと機関別ベンチマーク
- Authors: Qing Wang, Bo Li, Jialu Liang, Daling Shi, Bob Zhang, Qianqian Song,
- Abstract要約: 本稿では,薬物・薬物移動スキルの登録を問うマルチエージェント検索システムであるD薬局について紹介する。
また、3,772イテムの権威を意識したベンチマークである DrugAudit も提供しています。
DrugAudit と MedQA (751) と PubMedQA の薬物関連サブセットにまたがって、 DrugClaw はヘッドラインテーブルのすべてのカラムでトップ-1 である。
- 参考スコア(独自算出の注目度): 21.327464065781694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drug-information question answering is a high-stakes setting where hallucinated facts can mislead clinical decision-making and the provenance of each cited fact matters as much as the fact itself. We present DrugClaw, a multi-agent retrieval-augmented system that queries a registry of drug and pharmacovigilance skills via a reflection-driven state-machine workflow and returns answers grounded in primary regulatory or peer-reviewed records. We also contribute DrugAudit, a 3,772-item authority-aware benchmark with an evaluation panel that scores upstream-of-gold source match, token-level semantic snippet overlap, and citation faithfulness under a dual-judge LLM-as-judge protocol with inter-judge kappa = 0.88 (almost-perfect). Across DrugAudit plus drug-related subsets of MedQA (751) and PubMedQA (512), DrugClaw is top-1 on every column of the headline table: composite Evidence Index under both judges, judge-mediated answer correctness, primary-source rate (0.918, +10.1 pp over next-best), faithfulness (0.887, +5.9 pp), MedQA (0.920), and PubMedQA (0.693).
- Abstract(参考訳): 薬物情報質問応答は、幻覚的事実が臨床的な意思決定を誤解させ、引用された事実の証明が事実そのものと同じくらいに重要である、という高い評価条件である。
我々は、リフレクション駆動のステートマシンワークフローを通じて、薬物と薬物の移動スキルのレジストリをクエリし、一次規制またはピアレビューされた記録に基づく回答を返すマルチエージェント検索拡張システムであるD薬爪を提案する。
また,2judge LLM-as-judgeプロトコルを用いて,Goldソースマッチのアップストリーム,トークンレベルのセマンティックスニペットオーバーラップ,引用忠実度をスコアする評価パネルを備えた3,772-itemの権威を意識したベンチマークであるD薬監査を行った。
薬物監査とMedQA (751) および PubMedQA (512) の薬物関連サブセットにまたがって、DragonClaw はヘッドラインテーブルのすべてのカラムでトップ-1 である: 審査員による回答の正当性、一次ソースレート (0.918, +10.1 pp over next-best)、忠実度 (0.887, +5.9 pp)、MedQA (0.920), PubMedQA (0.693)。
関連論文リスト
- FDARxBench: Benchmarking Regulatory and Clinical Reasoning on FDA Generic Drug Assessment [28.49642871832232]
汎用的な薬物評価を動機としたQA(Document-grounded Question-Awering)を評価するための,専門家によるキュレートされた実世界ベンチマークを導入する。
薬物ラベルには、豊富なが不均一な臨床および規制情報が含まれている。
FDARxBenchは、高品質で専門家によるキュレーション、事実、マルチホップ、拒否タスクにまたがるQAの例を生成する。
論文 参考訳(メタデータ) (2026-03-20T00:33:58Z) - From Archives to Decisions: Multi-Agent Pharmaceutical Co-Scientist for Traceable Drug Discovery and Reverse Translation [0.6347968479268647]
医薬品研究・開発を支援する多エージェント共同研究者であるDiscoVerseを紹介する。
このシステムはロシュの大規模な歴史的コーパスに意味検索、クロスドキュメントリンク、監査可能な合成を実装している。
我々のアプローチを実世界の規模で検証するために、ロシュ研究レポジトリから180分子のサブセットを選択しました。
論文 参考訳(メタデータ) (2025-11-23T03:17:26Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence [0.231749519765552]
我々は、エージェントAIシステム内で高速な薬物資産デューディリジェンスに使用される競合発見コンポーネントを記述し、ベンチマークする。
競合するAIエージェントは、表示が与えられた場合、その表示の競合する風景を含むすべての薬物を検索する。
当社の競合発見エージェントは,OpenAI Deep ResearchとPerplexity Labsを上回る83%のリコールを達成した。
論文 参考訳(メタデータ) (2025-08-22T17:50:00Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Neural Bandits for Data Mining: Searching for Dangerous Polypharmacy [63.135687276599114]
一部の多薬局は、不適切とみなされており、死亡や入院などの健康上の有害な結果に関係している可能性がある。
我々は、クレームデータセットを効率的にマイニングし、薬物の組み合わせと健康結果の関係の予測モデルを構築するためのOptimNeuralTS戦略を提案する。
提案手法では,最大72%のPIPを検出でき,平均精度は99%であり,30000タイムステップで検出できる。
論文 参考訳(メタデータ) (2022-12-10T03:43:23Z) - Knowledge-Driven New Drug Recommendation [88.35607943144261]
既存の薬物と新薬のギャップを埋めるために, 薬物依存型マルチフェノタイプ数発学習機を開発した。
EDGEは外部薬効知識ベースを用いて偽陰性監視信号を除去する。
その結果, EDGEは, ROC-AUCスコアよりも7.3%向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T16:07:52Z) - An Integrated System of Drug Matching and Abnormal Approval Number
Correction [0.0]
本稿では、2つのデータソースから薬品をマッチングする統合システムを作成する。
我々の統合システムは、99.2%の精度と97.5%のリコールで、98.3%の薬物マッチング精度を達成する。
論文 参考訳(メタデータ) (2022-07-01T11:19:50Z) - Principal-Agent Hypothesis Testing [54.154244569974864]
我々は、規制当局(プリンシパル)と医薬品会社のような実験者(エージェント)との関係を考察する。
医薬品の有効性は規制当局に知られていないため、医薬品会社は規制当局に有効性を証明するために費用がかかる裁判を行わなければならない。
エージェントの戦略行動に頑健なプロトコルを設計する方法を示し、戦略参加者の存在下で最適なプロトコルを導出する。
論文 参考訳(メタデータ) (2022-05-13T17:59:23Z) - Extracting Adverse Drug Events from Clinical Notes [1.6244541005112747]
有害薬物イベント(ADEs)は、薬物または薬物の投与によって引き起こされる予期せぬ出来事です。
本稿では, 関連抽出手法を用いて, 薬物とその関連属性との関係を検討する。
論文 参考訳(メタデータ) (2021-04-21T23:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。