論文の概要: Aligning Medical Conversational AI through Online Reinforcement Learning with Information-Theoretic Rewards
- arxiv url: http://arxiv.org/abs/2601.17828v1
- Date: Sun, 25 Jan 2026 13:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.421642
- Title: Aligning Medical Conversational AI through Online Reinforcement Learning with Information-Theoretic Rewards
- Title(参考訳): 情報理論リワードを用いたオンライン強化学習による医療会話型AIの調整
- Authors: Tanvi Verma, Yang Zhou, Rick Siow Mong Goh, Yong Liu,
- Abstract要約: IGFT(Information Gain Fine-Tuning)は、医療会話型AIを訓練し、効果的な患者インタビューを行うための新しいアプローチである。
LoRA: Llama-3.1-8B-Instruct と DeepSeek-R1-Distill-Qwen-7B の2つのモデルを微調整する。
- 参考スコア(独自算出の注目度): 25.802538135442166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Information Gain Fine-Tuning (IGFT), a novel approach for training medical conversational AI to conduct effective patient interviews and generate comprehensive History of Present Illness (HPI) without requiring pre-collected human conversations. IGFT combines online Group Relative Policy Optimization (GRPO) with information-theoretic rewards, enabling models to learn from self-generated conversations with simulated patients. Unlike existing approaches that rely on expensive expert-annotated conversations or static datasets, our online RL framework allows models to discover effective questioning strategies through exploration. Our key innovation is an information gain reward function that tracks which clinical entities such as symptoms, temporal patterns, and medical history, are revealed during conversation. Each question's reward is computed based on its expected information gain combined with GPT-4o-mini quality assessments across dimensions including clinical relevance, patient engagement, and specificity. This hybrid approach ensures models learn to ask targeted, clinically appropriate questions that efficiently gather diagnostic information. We fine-tune two models using LoRA: Llama-3.1-8B-Instruct and DeepSeek-R1-Distill-Qwen-7B (a reasoning-optimized model). Training exclusively on Avey data containing concise HPIs, we evaluate generalization to MIMIC data with longer, more elaborate HPIs. DeepSeek-R1-Distill-Qwen-7B (IGFT) achieves F1 scores of 0.408 on Avey (10.9% improvement over base) and 0.289 on MIMIC (12.9% improvement), while Llama-3.1-8B-Instruct (IGFT) reaches 0.384 and 0.336 respectively. Both models outperform OpenAI's model on MIMIC and surpass medical domain-specific baselines like HuatuoGPT and UltraMedical, which were optimized for single-turn medical QA rather than multi-turn conversations.
- Abstract(参考訳): Information Gain Fine-Tuning (IGFT) は、医療会話AIを訓練し、効果的な患者インタビューを行い、ヒトの会話を事前に収集することなく、包括的に現在病の歴史(HPI)を生成するための新しいアプローチである。
IGFTは、オンライングループ相対政策最適化(GRPO)と情報理論的な報酬を組み合わせることで、モデルがシミュレーションされた患者と自己生成された会話から学ぶことができる。
高価なエキスパートアノテートされた会話や静的データセットに依存する既存のアプローチとは異なり、オンラインRLフレームワークでは、探索を通じてモデルが効果的な質問戦略を見つけることができます。
私たちの重要な革新は、会話中に症状、時間的パターン、医療履歴などの臨床エンティティが明らかにされるかどうかを追跡する情報ゲイン報酬機能です。
各質問の報酬は、予想される情報ゲインと臨床関連性、患者エンゲージメント、特異性を含む範囲にわたるGPT-4o-mini品質評価とを組み合わせて計算される。
このハイブリッドアプローチにより、モデルがターゲットを絞った、臨床的に適切な質問をし、診断情報を効率的に収集することが可能になる。
Llama-3.1-8B-Instruct と DeepSeek-R1-Distill-Qwen-7B (推論最適化モデル) の2つのモデルを微調整する。
簡潔なHPIを含むAveyデータのみを訓練し,より詳細なHPIを用いてMIMICデータへの一般化を評価する。
DeepSeek-R1-Distill-Qwen-7B (IGFT)はAveyで0.408点(ベースで10.9%改善)、MIMICで0.289点(12.9%改善)、Llama-3.1-8B-Instruct (IGFT)は0.384点、0.336点である。
どちらのモデルも、OpenAIのMIMICモデルよりも優れており、HuatuoGPTやUltraMedicalといった医療ドメイン固有のベースラインを上回り、マルチターン会話よりもシングルターン医療QAに最適化されている。
関連論文リスト
- Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design [23.21070690395588]
患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
論文 参考訳(メタデータ) (2025-10-31T15:08:18Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Simulated patient systems are intelligent when powered by large language model-based AI agents [32.73072809937573]
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。