論文の概要: Conversation Forests: The Key to Fine Tuning Large Language Models for Multi-Turn Medical Conversations is Branching
- arxiv url: http://arxiv.org/abs/2507.04099v1
- Date: Sat, 05 Jul 2025 16:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.012753
- Title: Conversation Forests: The Key to Fine Tuning Large Language Models for Multi-Turn Medical Conversations is Branching
- Title(参考訳): 会話の森:多面的医療会話のための微調整大言語モデルが分岐する鍵
- Authors: Thomas Savage,
- Abstract要約: 医学において、マルチターン視点は、診断スキーマを学習し、会話のダイナミクスをよりよく理解するために重要である。
サベージ会話フォレスト(Savage Conversation Forests, SCF)は, 分岐会話アーキテクチャを利用した強化学習フレームワークである。
SCFは各ターンで複数の可能な会話継続を生成し、異なる早期応答が下流の相互作用や診断結果にどのように影響するかをモデルが学習できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning methods such as Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO) have demonstrated success in training large language models (LLMs) for single-turn tasks. However, these methods fall short in multi-turn applications, such as diagnostic patient interviewing, where understanding how early conversational turns influence downstream completions and outcomes is essential. In medicine, a multi-turn perspective is critical for learning diagnostic schemas and better understanding conversation dynamics. To address this gap, I introduce Savage Conversation Forests (SCF), a reinforcement learning framework that leverages a branched conversation architecture to fine-tune LLMs for multi-turn dialogue. SCF generates multiple possible conversation continuations at each turn, enabling the model to learn how different early responses affect downstream interactions and diagnostic outcomes. In experiments simulating doctor-patient conversations, SCF with branching outperforms linear conversation architectures on diagnostic accuracy. I hypothesize that SCF's improvements stem from its ability to provide richer, interdependent training signals across conversation turns. These results suggest that a branched training architecture is an important strategy for fine tuning LLMs in complex multi-turn conversational tasks.
- Abstract(参考訳): DPO(Direct Preference Optimization)やGRPO(Group Relative Policy Optimization)のような微調整手法は、単一ターンタスクのための大規模言語モデル(LLM)のトレーニングに成功している。
しかし、これらの手法は、早期会話が下流の完了と結果にどのように影響するかを理解することが不可欠である診断患者面接のようなマルチターンアプリケーションでは不十分である。
医学において、マルチターン視点は、診断スキーマを学習し、会話のダイナミクスをよりよく理解するために重要である。
このギャップに対処するために、分岐会話アーキテクチャを利用した強化学習フレームワークであるSavage Conversation Forests (SCF)を紹介します。
SCFは各ターンで複数の可能な会話継続を生成し、異なる早期応答が下流の相互作用や診断結果にどのように影響するかをモデルが学習できるようにする。
医師と患者の会話をシミュレートする実験では、枝分かれしたSCFは診断精度において線形会話アーキテクチャより優れている。
SCFの改良は、会話のターンにまたがってよりリッチで相互依存的なトレーニング信号を提供する能力に起因している、と私は考えています。
これらの結果から, 分岐学習アーキテクチャは, 複雑なマルチターン対話タスクにおいて, LLMを微調整するための重要な戦略であることが示唆された。
関連論文リスト
- DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [5.0037050098387805]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
本稿では,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるDoctorAgent-RLを提案する。
実験により、DoctorAgent-RLは、マルチターン推論能力と最終的な診断性能の両方で既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:48:14Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Chain-of-Interaction: Enhancing Large Language Models for Psychiatric Behavior Understanding by Dyadic Contexts [4.403408362362806]
本稿では,対話型対話による精神科的意思決定支援のための大規模言語モデルを文脈化するための,対話型連鎖促進手法を提案する。
このアプローチにより、大規模言語モデルでは、患者の行動コーディングのためのコーディングスキーム、患者の状態、およびドメイン知識を活用することができる。
論文 参考訳(メタデータ) (2024-03-20T17:47:49Z) - Integrating Physician Diagnostic Logic into Large Language Models: Preference Learning from Process Feedback [19.564416963801268]
プロセスフィードバックから選好学習というアプローチを提案する。
PLPFは医師の診断ロジックをLSMに統合する。
PLPFは医療会話におけるベースラインモデルの診断精度を17.6%向上させる。
論文 参考訳(メタデータ) (2024-01-11T06:42:45Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。