論文の概要: CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2512.05576v1
- Date: Fri, 05 Dec 2025 09:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.985121
- Title: CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning
- Title(参考訳): CureAgent: 臨床推論のためのトレーニングフリーエグゼクタ分析フレームワーク
- Authors: Ting-Ting Xie, Yixin Zhang,
- Abstract要約: Executor-Analyst Frameworkは、臨床推論のセマンティックロバスト性からツール実行の構文的精度を分離するモジュラーアーキテクチャである。
提案手法は,手頃なエンドツーエンドのファインタニングを必要とせずに,CURE-Bench上で最先端のパフォーマンスを実現することを目的としている。
- 参考スコア(独自算出の注目度): 23.353757415071104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current clinical agent built on small LLMs, such as TxAgent suffer from a \textit{Context Utilization Failure}, where models successfully retrieve biomedical evidence due to supervised finetuning but fail to ground their diagnosis in that information. In this work, we propose the Executor-Analyst Framework, a modular architecture that decouples the syntactic precision of tool execution from the semantic robustness of clinical reasoning. By orchestrating specialized TxAgents (Executors) with long-context foundation models (Analysts), we mitigate the reasoning deficits observed in monolithic models. Beyond simple modularity, we demonstrate that a Stratified Ensemble strategy significantly outperforms global pooling by preserving evidentiary diversity, effectively addressing the information bottleneck. Furthermore, our stress tests reveal critical scaling insights: (1) a \textit{Context-Performance Paradox}, where extending reasoning contexts beyond 12k tokens introduces noise that degrades accuracy; and (2) the \textit{Curse of Dimensionality} in action spaces, where expanding toolsets necessitates hierarchical retrieval strategies. Crucially, our approach underscores the potential of training-free architectural engineering, achieving state-of-the-art performance on CURE-Bench without the need for expensive end-to-end finetuning. This provides a scalable, agile foundation for the next generation of trustworthy AI-driven therapeutics. Code has been released on https://github.com/June01/CureAgent.
- Abstract(参考訳): TxAgentのような小さなLLM上に構築されている現在の臨床薬品は、モデルが監督された微調整によって生医学的証拠を回収することに成功したが、その情報に基づいて診断を下すことができなかった、という『textit{Context utilization Failure}』に苦しむ。
本研究では,臨床推論のセマンティックロバスト性からツール実行の構文的精度を分離するモジュールアーキテクチャであるExecutor-Analyst Frameworkを提案する。
専門的なTxAgents (Executor) を長文基礎モデル (Analysts) と組み合わせることで、モノリシックモデルで観測される推論不足を緩和する。
単純なモジュラリティの他に、Stratified Ensemble戦略は、明らかな多様性を保ち、情報のボトルネックに効果的に対処することで、グローバルプールを著しく上回っていることを実証する。
さらに, ストレステストでは, 1) 12kトークンを超えて推論コンテキストを拡張した場合, 精度を低下させるノイズが発生し, 2) ツールセットの拡張は階層的な検索戦略を必要とする。
CURE-Benchの最先端性能を、エンドツーエンドの高価な微調整を必要とせずに実現し、トレーニング不要なアーキテクチャ工学の可能性を強調した。
これは、次世代の信頼できるAI駆動治療のためのスケーラブルでアジャイルな基盤を提供する。
コードはhttps://github.com/ June01/CureAgent.comでリリースされた。
関連論文リスト
- NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly? [10.307093355903232]
NEBULAは、単一腕操作のための統合されたエコシステムであり、診断と再現性の評価を可能にする。
NEBULAは、正確なスキル診断のための能力テストと堅牢性を測定する系統的なストレステストを組み合わせた、新しい二重軸評価プロトコルを備えている。
フラグメンテーションを削減し、データセット間のトレーニングと公正比較をサポートするため、標準化されたAPIと大規模な集約データセットが提供される。
論文 参考訳(メタデータ) (2025-10-17T23:22:57Z) - Reimagining Agent-based Modeling with Large Language Model Agents via Shachi [16.625794969005966]
大規模言語モデル(LLM)によるマルチエージェントシステムにおける創発的行動の研究は重要な研究課題である。
エージェントのポリシーをコア認知コンポーネントに分解する形式的方法論とモジュラーフレームワークであるShachiを紹介する。
提案手法を総合的な10タスクベンチマークで検証し,新しい科学的探究を通じてその能力を実証する。
論文 参考訳(メタデータ) (2025-09-26T04:38:59Z) - Following the TRACE: A Structured Path to Empathetic Response Generation with Multi-Agent Models [19.450298798183166]
共感的応答生成は、より人間らしく支持的な会話エージェントを作成するための重要なタスクである。
既存の手法は、専門モデルの分析的深さと大規模言語モデルの生成的頻度との間の中心的なトレードオフに直面している。
我々は,共感を構造化認知プロセスとしてモデル化する新しいフレームワークであるTRACEを提案し,そのタスクを解析と合成のためのパイプラインに分解する。
論文 参考訳(メタデータ) (2025-09-26T04:20:37Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use [4.437184840125514]
本稿ではエージェントAIにおける従来の単一エージェントシステムの限界を克服する新しいファクターエージェントアーキテクチャを提案する。
提案手法はエージェントを,(1)高レベルプランナーおよびインコンテキスト学習者として機能する大規模言語モデル,(2)ツールフォーマットと出力の記憶器として機能する小型言語モデルに分解する。
経験的評価により,本アーキテクチャは,テキスト内学習と静的記憶のトレードオフを解明しつつ,計画精度と誤り回復性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-03-29T01:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。