論文の概要: ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue
- arxiv url: http://arxiv.org/abs/2603.02216v1
- Date: Tue, 10 Feb 2026 07:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.07746
- Title: ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue
- Title(参考訳): ATPO:マルチターン医療対話のための適応的ツリーポリシー最適化
- Authors: Ruike Cao, Shaojie Bai, Fugen Yao, Liang Dong, Jian Xu, Li Xiao,
- Abstract要約: 本稿では,新しい不確実性を考慮した適応木ポリシー最適化 (ATPO) アルゴリズムを提案する。
提案手法は,ベルマン誤差とアクション値分散の複合測定値を用いて,高い不確実性のある状態にロールアウト予算を適応的に割り当てる。
3つの公開医療対話ベンチマークの実験により、我々のアルゴリズムはいくつかの強力なベースラインを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 9.221285189821396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective information seeking in multi-turn medical dialogues is critical for accurate diagnosis, especially when dealing with incomplete information. Aligning Large Language Models (LLMs) for these interactive scenarios is challenging due to the uncertainty inherent in user-agent interactions, which we formulate as a Hierarchical Markov Decision Process (H-MDP). While conventional Reinforcement Learning (RL) methods like Group Relative Policy Optimization (GRPO) struggle with long-horizon credit assignment and Proximal Policy Optimization (PPO) suffers from unstable value estimation in this context, we propose a novel uncertainty-aware Adaptive Tree Policy Optimization (ATPO) algorithm. Our method adaptively allocates the rollout budget to states with high uncertainty, quantified by a composite metric of Bellman error and action-value variance. This strategy enables more accurate value estimation, while fostering more efficient and diverse exploration. To mitigate the high computational cost of tree-based RL, we introduce two key optimizations: an uncertainty-guided pruning mechanism to minimize the number of rollouts, and an asynchronous search architecture that leverages KV cache reuse to maximize inference throughput. Extensive experiments on three public medical dialogue benchmarks demonstrate that our algorithm significantly outperforms several strong baselines, culminating in Qwen3-8B model surpassing the much larger GPT-4o ($+0.92\%$ accuracy).
- Abstract(参考訳): マルチターン医療対話において有効な情報を求めることは、特に不完全な情報を扱う際には、正確な診断に不可欠である。
これらの対話シナリオに対する大規模言語モデル(LLM)の調整は,階層的マルコフ決定プロセス(H-MDP)として定式化されるユーザエージェントインタラクションに固有の不確実性のため,難しい。
グループ相対的政策最適化(GRPO)のような従来の強化学習(RL)手法は,長期的信用割当に苦しむ一方,PPO(Proximal Policy Optimization)はこの文脈で不安定な値推定に苦しむ一方で,新しい不確実性を考慮した適応木政策最適化(ATPO)アルゴリズムを提案する。
提案手法は,ベルマン誤差とアクション値分散の複合測定値を用いて,高い不確実性のある状態にロールアウト予算を適応的に割り当てる。
この戦略はより正確な価値推定を可能にし、より効率的で多様な探索を促進する。
ツリーベースRLの高計算コストを軽減するために,ロールアウト回数を最小限に抑える不確実性誘導プルーニング機構と,KVキャッシュの再利用を利用して推論スループットを最大化する非同期検索アーキテクチャを導入する。
3つの公開医療ダイアログベンチマークの大規模な実験により、我々のアルゴリズムはいくつかの強力なベースラインを著しく上回り、Qwen3-8Bモデルはより大きなGPT-4o(+0.92\%$ accuracy)を超える結果となった。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - SPOT: Scalable Policy Optimization with Trees for Markov Decision Processes [3.1382171194541306]
高い意思決定には、解釈可能な強化学習政策が不可欠である。
本研究では,決定木ポリシーを計算するための新しい手法であるSPOTを提案する。
我々は,木構造制約からMDPダイナミクスを分離する空間的分岐結合アプローチを採用する。
論文 参考訳(メタデータ) (2025-10-22T04:57:23Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Interactive Multi-Objective Probabilistic Preference Learning with Soft and Hard Bounds [20.97190146319937]
ブラキセラピーでは、臨床医は腫瘍の最大範囲を、厳格な臓器投与制限とバランスさせなければならない。
現在の方法は、しばしばこれらの多面的嗜好構造を反復的に洗練するための体系的なアプローチを欠いている。
このプロセス用に設計されたインタラクティブなローカル・グローバル・フレームワークであるActive-MoSHを提案する。
論文 参考訳(メタデータ) (2025-06-27T03:44:20Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。