論文の概要: Evaluating the Challenges of LLMs in Real-world Medical Follow-up: A Comparative Study and An Optimized Framework
- arxiv url: http://arxiv.org/abs/2512.18999v1
- Date: Mon, 22 Dec 2025 03:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.604151
- Title: Evaluating the Challenges of LLMs in Real-world Medical Follow-up: A Comparative Study and An Optimized Framework
- Title(参考訳): 実世界医療フォローアップにおけるLCMの課題評価 : 比較研究と最適化フレームワーク
- Authors: Jinyan Liu, Zikang Chen, Qinchuan Wang, Tan Xie, Heming Zheng, Xudong Lv,
- Abstract要約: 大規模言語モデル(LLM)は、追跡形式の複雑さにより、制御不能なダイアログフローや不正確な情報抽出に悩まされることが多い。
我々は、エンドツーエンドのLCMベースのシステムと、構造化プロセス制御を備えたモジュールパイプラインを開発する。
提案手法はタスク分解,セマンティッククラスタリング,フロー管理を基礎として,対話の安定性と抽出精度を向上させる。
- 参考スコア(独自算出の注目度): 5.201669044178544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applied directly in an end-to-end manner to medical follow-up tasks, Large Language Models (LLMs) often suffer from uncontrolled dialog flow and inaccurate information extraction due to the complexity of follow-up forms. To address this limitation, we designed and compared two follow-up chatbot systems: an end-to-end LLM-based system (control group) and a modular pipeline with structured process control (experimental group). Experimental results show that while the end-to-end approach frequently fails on lengthy and complex forms, our modular method-built on task decomposition, semantic clustering, and flow management-substantially improves dialog stability and extraction accuracy. Moreover, it reduces the number of dialogue turns by 46.73% and lowers token consumption by 80% to 87.5%. These findings highlight the necessity of integrating external control mechanisms when deploying LLMs in high-stakes medical follow-up scenarios.
- Abstract(参考訳): 医学的なフォローアップタスクにエンドツーエンドで直接適用する場合、Large Language Models (LLM) は、追跡フォームの複雑さにより、制御されていないダイアログフローや不正確な情報抽出に悩まされることが多い。
この制限に対処するため、我々は、エンドツーエンドのLLMベースのシステム(制御グループ)と構造化プロセス制御(実験グループ)を備えたモジュールパイプラインの2つのフォローアップチャットボットシステムを設計、比較した。
実験結果から, 終端アプローチは長大かつ複雑な形式で頻繁に失敗するが, タスク分解, セマンティッククラスタリング, フロー管理に基づくモジュール方式では, ダイアログの安定性と抽出精度が著しく向上することがわかった。
さらに、対話の回数を46.73%減らし、トークン消費を80%減らして87.5%に減らす。
これらの知見は,LSMを高用量なフォローアップシナリオに展開する際の外部制御機構の統合の必要性を浮き彫りにした。
関連論文リスト
- An Automated Retrieval-Augmented Generation LLaMA-4 109B-based System for Evaluating Radiotherapy Treatment Plans [2.2532577733932038]
我々は,LLaMA-4 109Bを用いた放射線治療計画の自動化,プロトコル認識,解釈可能な評価のためのRAGシステムを開発した。
RAGシステムは5つのSentenceTransformerバックボーンに最適化された検索エンジン、コホート類似性に基づくパーセンタイル予測コンポーネント、臨床制約チェッカーの3つのコアモジュールを統合している。
論文 参考訳(メタデータ) (2025-09-25T03:18:31Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - DDO: Dual-Decision Optimization for LLM-Based Medical Consultation via Multi-Agent Collaboration [19.22902665121127]
大規模言語モデル(LLM)は強力な一般化と推論能力を示す。
textbfDDOは、textbfDual-textbfDecision textbfOptimizationを実行する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-24T10:26:57Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology [3.0048953993445586]
本研究の目的は,大規模言語モデル(LLM)を用いて,CTシミュレーションの順序から要約を生成することである。
ローカルにホストされたLlama 3.1 405Bモデルを使用して、CTシミュレーションの順序からキーワードを抽出し、要約を生成する。
LLM生成サマリーの精度は, 基礎事実を基準として, セラピストによって評価された。
論文 参考訳(メタデータ) (2025-01-27T18:47:58Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。