論文の概要: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding
- arxiv url: http://arxiv.org/abs/2505.21908v1
- Date: Wed, 28 May 2025 02:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.379622
- Title: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding
- Title(参考訳): LLMにおけるアウト・オブ・ディストリビューション推論のための強化学習:診断関連グループ符号化に関する実証的研究
- Authors: Hanyin Wang, Zhenbang Wu, Gururaj Kolar, Hariprasad Korsapati, Brian Bartlett, Bryan Hull, Jimeng Sun,
- Abstract要約: 大言語モデル(LLM)は、タスクの配布外の性質のため、診断関連グループ(DRG)コードと競合する。
本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。
我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入に対する医師公認推論を生成する。
- 参考スコア(独自算出の注目度): 22.071220971334274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnosis-Related Group (DRG) codes are essential for hospital reimbursement and operations but require labor-intensive assignment. Large Language Models (LLMs) struggle with DRG coding due to the out-of-distribution (OOD) nature of the task: pretraining corpora rarely contain private clinical or billing data. We introduce DRG-Sapphire, which uses large-scale reinforcement learning (RL) for automated DRG coding from clinical notes. Built on Qwen2.5-7B and trained with Group Relative Policy Optimization (GRPO) using rule-based rewards, DRG-Sapphire introduces a series of RL enhancements to address domain-specific challenges not seen in previous mathematical tasks. Our model achieves state-of-the-art accuracy on the MIMIC-IV benchmark and generates physician-validated reasoning for DRG assignments, significantly enhancing explainability. Our study further sheds light on broader challenges of applying RL to knowledge-intensive, OOD tasks. We observe that RL performance scales approximately linearly with the logarithm of the number of supervised fine-tuning (SFT) examples, suggesting that RL effectiveness is fundamentally constrained by the domain knowledge encoded in the base model. For OOD tasks like DRG coding, strong RL performance requires sufficient knowledge infusion prior to RL. Consequently, scaling SFT may be more effective and computationally efficient than scaling RL alone for such tasks.
- Abstract(参考訳): 診断関連グループ (DRG) は、病院の返済や手術には必須であるが、労働集約的な割り当てが必要である。
LLM(Large Language Models)は、業務のアウト・オブ・ディストリビューション(OOD)の性質からDRGコーディングに苦慮している。
本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。
Qwen2.5-7B上に構築され、ルールベースの報酬を使ってグループ相対ポリシー最適化(GRPO)で訓練されたDRG-Sapphireは、以前の数学的なタスクでは見られない領域固有の課題に対処する一連のRL拡張を導入した。
我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入の医師公認推論を生成し、説明可能性を大幅に向上させる。
我々の研究は、知識集約型OODタスクにRLを適用するというより広範な課題に光を当てている。
我々は,RL性能が教師付き微調整(SFT)の例の対数とほぼ線形にスケールしていることを観察し,RLの有効性は基本モデルに符号化されたドメイン知識によって根本的に制約されていることを示唆した。
DRGコーディングのようなOODタスクでは、強力なRL性能はRLの前に十分な知識の注入を必要とする。
したがって、SFTのスケーリングは、そのようなタスクに対してのみRLをスケーリングするよりも効率的で計算的に効率的である。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。
LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。
検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - Deep reinforcement learning for fMRI prediction of Autism Spectrum
Disorder [0.0]
Autism Brain Imaging Data Exchange (ABIDE)データベースから100グラフラベル対のDep Reinforcement Learning (DRL)分類器を訓練した。
比較のために、我々は同じトレーニングセットでSupervised Deep Learning (SDL)分類器を訓練した。
DRL は 2.4 x 10(-7) の p 値で SDL を著しく上回った
論文 参考訳(メタデータ) (2022-06-17T01:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。