論文の概要: Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement
- arxiv url: http://arxiv.org/abs/2601.21113v1
- Date: Wed, 28 Jan 2026 23:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.47444
- Title: Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement
- Title(参考訳): プランナー・オーディタツイン:FHIRによるLCM計画、ガイドラインリコール、オプションキャッシング、自己改善によるエージェント放電計画
- Authors: Kaiyuan Wu, Aditya Nagori, Rishikesan Kamaleswaran,
- Abstract要約: 大きな言語モデル(LLM)は、臨床退院計画の約束を示すが、その使用は幻覚、排便、誤診された自信によって制限される。
安全性と信頼性を向上させる自己改善型キャッシュオプションのPlanner-Auditorフレームワークを導入する。
- 参考スコア(独自算出の注目度): 2.0755366440393748
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective: Large language models (LLMs) show promise for clinical discharge planning, but their use is constrained by hallucination, omissions, and miscalibrated confidence. We introduce a self-improving, cache-optional Planner-Auditor framework that improves safety and reliability by decoupling generation from deterministic validation and targeted replay. Materials and Methods: We implemented an agentic, retrospective, FHIR-native evaluation pipeline using MIMIC-IV-on-FHIR. For each patient, the Planner (LLM) generates a structured discharge action plan with an explicit confidence estimate. The Auditor is a deterministic module that evaluates multi-task coverage, tracks calibration (Brier score, ECE proxies), and monitors action-distribution drift. The framework supports two-tier self-improvement: (i) within-episode regeneration when enabled, and (ii) cross-episode discrepancy buffering with replay for high-confidence, low-coverage cases. Results: While context caching improved performance over baseline, the self-improvement loop was the primary driver of gains, increasing task coverage from 32% to 86%. Calibration improved substantially, with reduced Brier/ECE and fewer high-confidence misses. Discrepancy buffering further corrected persistent high-confidence omissions during replay. Discussion: Feedback-driven regeneration and targeted replay act as effective control mechanisms to reduce omissions and improve confidence reliability in structured clinical planning. Separating an LLM Planner from a rule-based, observational Auditor enables systematic reliability measurement and safer iteration without model retraining. Conclusion: The Planner-Auditor framework offers a practical pathway toward safer automated discharge planning using interoperable FHIR data access and deterministic auditing, supported by reproducible ablations and reliability-focused evaluation.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)は, 臨床退院計画の公約を示すが, その使用は幻覚, 排便, 誤診された信頼によって制限される。
本稿では,自己改善型キャッシュ選択型Planner-Auditorフレームワークを提案する。
材料と方法:MIMIC-IV-on-FHIRを用いたエージェント,リフレクション,FHIRネイティブ評価パイプラインを実装した。
各患者に対して、プランナー(LLM)は、明確な信頼度推定を伴う構造化された退院行動計画を生成する。
Auditorは、マルチタスクカバレッジを評価し、キャリブレーション(Brier score, ECE proxies)を追跡し、アクション分散ドリフトを監視する決定論的モジュールである。
このフレームワークは2層自己改善をサポートしている。
(i)有効時のエピソード内再生、及び
(II)高信頼低被覆症例に対するリプレイによる異方性バッファリング
結果: コンテキストキャッシュはベースラインよりもパフォーマンスを向上したが、自己改善ループは利得の主要な要因であり、タスクカバレッジは32%から86%に増加した。
校正は大幅に改善され、ブライア/ECEは減少し、高信頼のミスも少なくなった。
離散バッファリングは、リプレイ中に永続的な高信頼欠落を補正する。
考察: フィードバック駆動リジェネレーションとターゲットリプレイは, 欠失を低減し, 構造化された臨床計画における信頼性を向上させるための効果的な制御機構として機能する。
LLMプランナーを規則に基づく観察オーディタから分離することで、モデルの再トレーニングなしに、系統的な信頼性測定と安全なイテレーションが可能になる。
結論:Planner-Auditorフレームワークは、相互運用可能なFHIRデータアクセスと決定論的監査を用いた安全な自動放電計画への実践的な経路を提供する。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。