論文の概要: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding
- arxiv url: http://arxiv.org/abs/2505.21908v1
- Date: Wed, 28 May 2025 02:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.379622
- Title: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding
- Title(参考訳): LLMにおけるアウト・オブ・ディストリビューション推論のための強化学習:診断関連グループ符号化に関する実証的研究
- Authors: Hanyin Wang, Zhenbang Wu, Gururaj Kolar, Hariprasad Korsapati, Brian Bartlett, Bryan Hull, Jimeng Sun,
- Abstract要約: 大言語モデル(LLM)は、タスクの配布外の性質のため、診断関連グループ(DRG)コードと競合する。
本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。
我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入に対する医師公認推論を生成する。
- 参考スコア(独自算出の注目度): 22.071220971334274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnosis-Related Group (DRG) codes are essential for hospital reimbursement and operations but require labor-intensive assignment. Large Language Models (LLMs) struggle with DRG coding due to the out-of-distribution (OOD) nature of the task: pretraining corpora rarely contain private clinical or billing data. We introduce DRG-Sapphire, which uses large-scale reinforcement learning (RL) for automated DRG coding from clinical notes. Built on Qwen2.5-7B and trained with Group Relative Policy Optimization (GRPO) using rule-based rewards, DRG-Sapphire introduces a series of RL enhancements to address domain-specific challenges not seen in previous mathematical tasks. Our model achieves state-of-the-art accuracy on the MIMIC-IV benchmark and generates physician-validated reasoning for DRG assignments, significantly enhancing explainability. Our study further sheds light on broader challenges of applying RL to knowledge-intensive, OOD tasks. We observe that RL performance scales approximately linearly with the logarithm of the number of supervised fine-tuning (SFT) examples, suggesting that RL effectiveness is fundamentally constrained by the domain knowledge encoded in the base model. For OOD tasks like DRG coding, strong RL performance requires sufficient knowledge infusion prior to RL. Consequently, scaling SFT may be more effective and computationally efficient than scaling RL alone for such tasks.
- Abstract(参考訳): 診断関連グループ (DRG) は、病院の返済や手術には必須であるが、労働集約的な割り当てが必要である。
LLM(Large Language Models)は、業務のアウト・オブ・ディストリビューション(OOD)の性質からDRGコーディングに苦慮している。
本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。
Qwen2.5-7B上に構築され、ルールベースの報酬を使ってグループ相対ポリシー最適化(GRPO)で訓練されたDRG-Sapphireは、以前の数学的なタスクでは見られない領域固有の課題に対処する一連のRL拡張を導入した。
我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入の医師公認推論を生成し、説明可能性を大幅に向上させる。
我々の研究は、知識集約型OODタスクにRLを適用するというより広範な課題に光を当てている。
我々は,RL性能が教師付き微調整(SFT)の例の対数とほぼ線形にスケールしていることを観察し,RLの有効性は基本モデルに符号化されたドメイン知識によって根本的に制約されていることを示唆した。
DRGコーディングのようなOODタスクでは、強力なRL性能はRLの前に十分な知識の注入を必要とする。
したがって、SFTのスケーリングは、そのようなタスクに対してのみRLをスケーリングするよりも効率的で計算的に効率的である。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - ReST-RL: Achieving Accurate Code Reasoning of LLMs with Optimized Self-Training and Decoding [15.051729280454454]
本稿では,統一LLM RLパラダイムであるReST-RLを紹介する。
改良されたGRPOアルゴリズムと、値モデル(VM)が補助する精密に設計されたテスト時間復号法を組み合わせる。
提案するRLパラダイムの有効性を検証するために,符号化問題に関する広範な実験を行った。
論文 参考訳(メタデータ) (2025-08-27T05:16:03Z) - Toward Better EHR Reasoning in LLMs: Reinforcement Learning with Expert Attention Guidance [9.106439376182513]
電子健康記録(EHR)推論のための大規模言語モデル(LLM)は、正確で一般化可能な臨床予測を可能にするために不可欠である。
EAG-RL は LLM の EHR 推論能力を高めるために設計された新しい2段階学習フレームワークである。
EAG-RLは、まず、専門家誘導モンテカルロ木探索を用いて、高品質で段階的な推論軌道を構築する。
論文 参考訳(メタデータ) (2025-08-19T07:24:48Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。
LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。
検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - Diffusion-Based Offline RL for Improved Decision-Making in Augmented ARC Task [10.046325073900297]
SOLAR(Abstraction and Reasoning)のための拡張オフラインRLデータセットを提案する。
SOLARは、十分な経験データを提供することで、オフラインのRLメソッドの適用を可能にする。
本実験は, 簡単なARCタスクにおけるオフラインRL手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-15T06:48:27Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - Deep reinforcement learning for fMRI prediction of Autism Spectrum
Disorder [0.0]
Autism Brain Imaging Data Exchange (ABIDE)データベースから100グラフラベル対のDep Reinforcement Learning (DRL)分類器を訓練した。
比較のために、我々は同じトレーニングセットでSupervised Deep Learning (SDL)分類器を訓練した。
DRL は 2.4 x 10(-7) の p 値で SDL を著しく上回った
論文 参考訳(メタデータ) (2022-06-17T01:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。