論文の概要: MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition
- arxiv url: http://arxiv.org/abs/2512.11682v1
- Date: Fri, 12 Dec 2025 16:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.834208
- Title: MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition
- Title(参考訳): MedAI:NeurIPS CURE-BenchコンペティションにおけるTxAgentの治療的エージェント推論の評価
- Authors: Tim Cofala, Christian Kalfar, Jingge Xiao, Johanna Schrader, Michelle Tang, Wolfgang Nejdl,
- Abstract要約: 臨床医学における治療的意思決定には、信頼できるバイオメディカル知識に基づく堅牢で多段階の推論が必要である。
TxAgentによって実証されたエージェントAI手法は、反復的検索強化生成(RAG)を通じてこれらの課題に対処する。
本研究はCURE-Bench NeurIPS 2025 Challengeへの参加から得られた知見を提示する。
- 参考スコア(独自算出の注目度): 6.191248426050678
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Therapeutic decision-making in clinical medicine constitutes a high-stakes domain in which AI guidance interacts with complex interactions among patient characteristics, disease processes, and pharmacological agents. Tasks such as drug recommendation, treatment planning, and adverse-effect prediction demand robust, multi-step reasoning grounded in reliable biomedical knowledge. Agentic AI methods, exemplified by TxAgent, address these challenges through iterative retrieval-augmented generation (RAG). TxAgent employs a fine-tuned Llama-3.1-8B model that dynamically generates and executes function calls to a unified biomedical tool suite (ToolUniverse), integrating FDA Drug API, OpenTargets, and Monarch resources to ensure access to current therapeutic information. In contrast to general-purpose RAG systems, medical applications impose stringent safety constraints, rendering the accuracy of both the reasoning trace and the sequence of tool invocations critical. These considerations motivate evaluation protocols treating token-level reasoning and tool-usage behaviors as explicit supervision signals. This work presents insights derived from our participation in the CURE-Bench NeurIPS 2025 Challenge, which benchmarks therapeutic-reasoning systems using metrics that assess correctness, tool utilization, and reasoning quality. We analyze how retrieval quality for function (tool) calls influences overall model performance and demonstrate performance gains achieved through improved tool-retrieval strategies. Our work was awarded the Excellence Award in Open Science. Complete information can be found at https://curebench.ai/.
- Abstract(参考訳): 臨床医学における治療的意思決定は、AI指導が患者の特徴、疾患のプロセス、薬理学薬との複雑な相互作用と相互作用する高い領域を構成する。
薬物推奨、治療計画、悪影響予測といった課題は、信頼性のあるバイオメディカル知識に基づく、堅牢で多段階の推論を必要とする。
TxAgentによって実証されたエージェントAIメソッドは、反復的検索強化生成(RAG)を通じてこれらの課題に対処する。
TxAgentは微調整されたLlama-3.1-8Bモデルを採用し、統合されたバイオメディカルツールスイート(ToolUniverse)への関数呼び出しを動的に生成し実行し、現在の治療情報へのアクセスを確保するためにFDA Drug API、OpenTargets、Monarchリソースを統合する。
汎用RAGシステムとは対照的に、医療アプリケーションは厳格な安全制約を課し、推論トレースとツール呼び出しシーケンスの両方の正確さをレンダリングする。
これらの考察は、トークンレベルの推論とツール使用行動を明示的な監視信号として扱うための評価プロトコルを動機付けている。
本研究はCURE-Bench NeurIPS 2025 Challengeへの参加から得られた知見を提示する。
我々は,機能(ツール)コールの検索品質が全体のモデル性能に与える影響を分析し,ツール検索戦略の改善による性能向上を実証する。
私たちの作品は、オープンサイエンスの優秀賞を受賞しました。
完全な情報はhttps://curebench.ai/.com/で確認できる。
関連論文リスト
- ConfAgents: A Conformal-Guided Multi-Agent Framework for Cost-Efficient Medical Diagnosis [11.18347744454527]
私たちは、新しいメタレベルの進化メカニズムを通じて制限を克服する、自己進化型AIエージェントであるHealthFlowを紹介します。
HealthFlowは、手続き的な成功と失敗を永続的で戦略的知識基盤に蒸留することで、独自のハイレベルな問題解決ポリシーを自律的に洗練する。
私たちの実験では、HealthFlowの自己進化アプローチが最先端のエージェントフレームワークを大幅に上回っていることを実証しています。
論文 参考訳(メタデータ) (2025-08-06T22:39:38Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism [48.41735416075536]
インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にする。
本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
論文 参考訳(メタデータ) (2025-06-10T18:43:26Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools [22.322166889507184]
TxAgentは、薬物相互作用、禁忌、患者固有の治療戦略を分析するAIエージェントである。
ToolUniverseは、1939年以降、FDAが承認したすべての薬物を含む信頼できる情報源から211のツールを統合する。
オープンエンドドラッグ推論タスクでは92.1%の精度で、GPT-4oを超え、構造化多段階推論ではDeepSeek-R1(671B)を上回っている。
論文 参考訳(メタデータ) (2025-03-14T00:28:15Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Physical formula enhanced multi-task learning for pharmacokinetics prediction [54.13787789006417]
AIによる薬物発見の大きな課題は、高品質なデータの不足である。
薬物動態の4つの重要なパラメータを同時に予測するPEMAL法を開発した。
実験の結果,PEMALは一般的なグラフニューラルネットワークに比べてデータ需要を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-04-16T07:42:55Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。