Fugu-MT 論文翻訳(概要): Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

論文の概要: Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

arxiv url: http://arxiv.org/abs/2605.14126v1
Date: Wed, 13 May 2026 21:27:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.510426
Title: Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)
Title（参考訳）: ファストヘルスケア・インターオペラビリティ・リソース(FHIR)におけるツールケアエージェントの強化学習
Authors: Marius S. Knorr, Robert Müller, Jan P. Bremer, Nils Schweingruber,
Abstract要約: マルチターンのCodeエージェントを実装し、カスタムハーネスとツールを使用して強化学習を施した後訓練を行う。提案手法は,より小型で安価なQwen3-8Bモデルを用いて,FHIR-AgentBench上で50%(o4-mini)から77%に改善する。
参考スコア（独自算出の注目度）: 0.4635383898871528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fast Healthcare Interoperability Resources (FHIR) is the dominant standard for interoperable exchange of healthcare data. In FHIR, electronic health records form a directed graph of resources. Answering clinically meaningful questions over FHIR requires agents to perform multi-step reasoning, filtering, and aggregation across multiple resource types. Prior work shows that even tool-augmented LLM agents (retrieval, code execution, multi-turn planning) often select the wrong resources or violate traversal constraints. We study this problem in the context of FHIR-AgentBench, a benchmark for realistic question answering over real-world hospital data, and frame reasoning on FHIR as a sequential decision-making problem over a queryable structured graph. We implement a multi-turn CodeAct agent and post-train it with reinforcement learning using a custom harness and tools. A LLM Judge provides execution-grounded rewards. Compared to prompt-based, closed-model baselines, RL post-training improves performance while enforcing data-integrity constraints. Empirically, our approach improves answer correctness from 50% (o4-mini) to 77% on FHIR-AgentBench using a smaller and cheaper Qwen3-8B model. We present an end-to-end post-training pipeline (environment building, harness construction, model training and custom evaluation) that reliably improves multi-turn reasoning over structured clinical graphs.
Abstract（参考訳）: FHIR(Fast Healthcare Interoperability Resources)は、医療データの相互運用のための主要な標準である。 FHIRでは、電子健康記録はリソースの有向グラフを形成する。 FHIRに対して臨床的に意味のある質問に答えるには、エージェントは複数のリソースタイプにわたる多段階の推論、フィルタリング、集約を実行する必要がある。以前の研究によると、ツール強化されたLLMエージェント(検索、コード実行、マルチターン計画)でさえ、間違ったリソースを選択したり、トラバース制約に違反したりすることが多い。本研究では,FHIR-AgentBench,現実の病院データに対する現実的な質問応答のベンチマーク,およびFHIR上のフレーム推論をクエリ可能な構造化グラフ上の逐次決定問題として検討する。マルチターンのCodeActエージェントを実装し、カスタムハーネスとツールを使用して強化学習を施した後訓練を行う。 LLMジャッジは、実行グラウンドの報酬を提供します。プロンプトベースのクローズドモデルベースラインと比較して、RLポストトレーニングはデータ統合性制約を強制しながらパフォーマンスを向上させる。提案手法は,より小型で安価なQwen3-8Bモデルを用いて,FHIR-AgentBench上で50%(o4-mini)から77%に改善する。構築された臨床グラフに対するマルチターン推論を確実に改善する、エンドツーエンドのポストトレーニングパイプライン(環境構築、ハーネス構築、モデルトレーニング、カスタム評価)を提案する。

関連論文リスト

MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。 GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。 MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文参考訳（メタデータ） (2026-04-15T07:39:08Z)
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models [78.68818219506313]
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
論文参考訳（メタデータ） (2026-03-25T22:20:25Z)
Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction [0.18907108368038208]
現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。結果駆動型強化学習(GRPO)によってのみ訓練されたコンパクトな3B-パラメータモデルが,このタスクの効果的なポリシを学習可能であることを示す。
論文参考訳（メタデータ） (2025-11-14T08:44:58Z)
Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-01T09:08:04Z)
FHIR-AgentBench: Benchmarking LLM Agents for Realistic Interoperable EHR Question Answering [17.141355981515012]
HL7 FHIR(Health Level Seven Fast Healthcare Resources)標準への最近のシフトは、臨床AIの新たなフロンティアを開く。 FHIR-AgentBenchは、HL7 FHIR標準で2,931のリアルな臨床質問を根拠とするベンチマークである。
論文参考訳（メタデータ） (2025-09-12T06:52:55Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文参考訳（メタデータ） (2024-12-20T18:49:45Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。