論文の概要: TARSE: Test-Time Adaptation via Retrieval of Skills and Experience for Reasoning Agents
- arxiv url: http://arxiv.org/abs/2603.01241v1
- Date: Sun, 01 Mar 2026 19:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.584386
- Title: TARSE: Test-Time Adaptation via Retrieval of Skills and Experience for Reasoning Agents
- Title(参考訳): TARSE:Retrieval of Skills and Experience for Reasoning Agents
- Authors: Junda Wang, Zonghai Tao, Hansi Zeng, Zhichao Yang, Hamed Zamani, Hong Yu,
- Abstract要約: 2つの明確で検索可能なリソースを持つエージェント問題として,臨床質問応答の枠組みを定めている。
実行可能な決定ルールとして整理されたガイドラインスタイルのドキュメントから,スキルライブラリを構築する。
次に、検索した項目にモデルを適用することで、インスタンスステップのミスアライメントを低減する。
- 参考スコア(独自算出の注目度): 30.35248346284844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex clinical decision making often fails not because a model lacks facts, but because it cannot reliably select and apply the right procedural knowledge and the right prior example at the right reasoning step. We frame clinical question answering as an agent problem with two explicit, retrievable resources: skills, reusable clinical procedures such as guidelines, protocols, and pharmacologic mechanisms; and experience, verified reasoning trajectories from previously solved cases (e.g., chain-of-thought solutions and their step-level decompositions). At test time, the agent retrieves both relevant skills and experiences from curated libraries and performs lightweight test-time adaptation to align the language model's intermediate reasoning with clinically valid logic. Concretely, we build (i) a skills library from guideline-style documents organized as executable decision rules, (ii) an experience library of exemplar clinical reasoning chains indexed by step-level transitions, and (iii) a step-aware retriever that selects the most useful skill and experience items for the current case. We then adapt the model on the retrieved items to reduce instance-step misalignment and to prevent reasoning from drifting toward unsupported shortcuts. Experiments on medical question-answering benchmarks show consistent gains over strong medical RAG baselines and prompting-only reasoning methods. Our results suggest that explicitly separating and retrieving clinical skills and experience, and then aligning the model at test time, is a practical approach to more reliable medical agents.
- Abstract(参考訳): 複雑な臨床的意思決定は、モデルが事実を欠いているためではなく、正しい手続き的知識と正しい推論ステップで適切な事前事例を確実に選択および適用できないため失敗することが多い。
専門知識,ガイドライン,プロトコル,薬理学的メカニズムなどの再利用可能な臨床手順,および既往の解決例(例えば,連鎖解法とその段階分解)からの検証された推論軌跡などである。
テスト時において、エージェントは、キュレートされたライブラリから関連するスキルと経験を検索し、言語モデルの中間推論と臨床的に有効な論理とを整合させる軽量なテスト時間適応を実行する。
具体的に言えば
一 実行可能決定規則として整理された指針式文書からの技能図書
(二)ステップレベルの遷移を指標とした先駆的な臨床推論連鎖の体験ライブラリ、及び
三 この場合において、最も有用な技量及び経験項目を選択するステップ対応レトリバー。
次に、検索した項目のモデルを適用し、インスタンスステップのミスアライメントを減らし、推論が不要なショートカットに向かってドリフトするのを防ぐ。
医学的質問答えベンチマークの実験では、強い医学的RAGベースラインとプロンプトのみの推論方法よりも一貫した利得を示している。
以上の結果から, 臨床スキルと経験を明確に分離し, モデルをテスト時に整列させることが, より信頼性の高い医療エージェントへの実践的アプローチであることが示唆された。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning [16.144050164828794]
本稿では, 臨床薬品の理性差を学習し, 臨床薬品の改善を図るためのフレームワークDRLを提案する。
DRLは、有向非巡回グラフ(DAG)として推論グラフを抽出し、臨床重み付きグラフ編集距離(GED)に基づく不一致解析を行う。
推論では、エージェントプロンプトを増強し、可能性のあるロジックギャップをパッチするために、トップ$k$命令を検索します。
論文 参考訳(メタデータ) (2026-02-10T16:29:32Z) - AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - ArgMed-Agents: Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes [7.950883198425716]
ArgMed-Agentsは、大きな言語モデル(LLM)が相互作用を通じて説明可能な臨床判断を下せるためのフレームワークである。
我々は、ArgMed-Agentsの形式モデルを構築し、理論的保証の予想を示す。
設定実験により、ArgMed-Agentsは、他のプロンプト手法と比較して、複雑な臨床的意思決定推論問題の精度を向上するだけでなく、より重要なのは、ユーザーの信頼を高めるための意思決定説明を提供する。
論文 参考訳(メタデータ) (2024-03-10T19:47:00Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。