Fugu-MT 論文翻訳(概要): Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding

論文の概要: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding

arxiv url: http://arxiv.org/abs/2505.21908v1
Date: Wed, 28 May 2025 02:54:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.379622
Title: Reinforcement Learning for Out-of-Distribution Reasoning in LLMs: An Empirical Study on Diagnosis-Related Group Coding
Title（参考訳）: LLMにおけるアウト・オブ・ディストリビューション推論のための強化学習:診断関連グループ符号化に関する実証的研究
Authors: Hanyin Wang, Zhenbang Wu, Gururaj Kolar, Hariprasad Korsapati, Brian Bartlett, Bryan Hull, Jimeng Sun,
Abstract要約: 大言語モデル(LLM)は、タスクの配布外の性質のため、診断関連グループ(DRG)コードと競合する。本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入に対する医師公認推論を生成する。
参考スコア（独自算出の注目度）: 22.071220971334274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diagnosis-Related Group (DRG) codes are essential for hospital reimbursement and operations but require labor-intensive assignment. Large Language Models (LLMs) struggle with DRG coding due to the out-of-distribution (OOD) nature of the task: pretraining corpora rarely contain private clinical or billing data. We introduce DRG-Sapphire, which uses large-scale reinforcement learning (RL) for automated DRG coding from clinical notes. Built on Qwen2.5-7B and trained with Group Relative Policy Optimization (GRPO) using rule-based rewards, DRG-Sapphire introduces a series of RL enhancements to address domain-specific challenges not seen in previous mathematical tasks. Our model achieves state-of-the-art accuracy on the MIMIC-IV benchmark and generates physician-validated reasoning for DRG assignments, significantly enhancing explainability. Our study further sheds light on broader challenges of applying RL to knowledge-intensive, OOD tasks. We observe that RL performance scales approximately linearly with the logarithm of the number of supervised fine-tuning (SFT) examples, suggesting that RL effectiveness is fundamentally constrained by the domain knowledge encoded in the base model. For OOD tasks like DRG coding, strong RL performance requires sufficient knowledge infusion prior to RL. Consequently, scaling SFT may be more effective and computationally efficient than scaling RL alone for such tasks.
Abstract（参考訳）: 診断関連グループ (DRG) は、病院の返済や手術には必須であるが、労働集約的な割り当てが必要である。 LLM(Large Language Models)は、業務のアウト・オブ・ディストリビューション(OOD)の性質からDRGコーディングに苦慮している。本稿では,大規模強化学習(RL)を用いてDRGの自動符号化を行うDRG-Sapphireについて紹介する。 Qwen2.5-7B上に構築され、ルールベースの報酬を使ってグループ相対ポリシー最適化(GRPO)で訓練されたDRG-Sapphireは、以前の数学的なタスクでは見られない領域固有の課題に対処する一連のRL拡張を導入した。我々のモデルはMIMIC-IVベンチマークで最先端の精度を達成し、DRG代入の医師公認推論を生成し、説明可能性を大幅に向上させる。我々の研究は、知識集約型OODタスクにRLを適用するというより広範な課題に光を当てている。我々は,RL性能が教師付き微調整(SFT)の例の対数とほぼ線形にスケールしていることを観察し,RLの有効性は基本モデルに符号化されたドメイン知識によって根本的に制約されていることを示唆した。 DRGコーディングのようなOODタスクでは、強力なRL性能はRLの前に十分な知識の注入を必要とする。したがって、SFTのスケーリングは、そのようなタスクに対してのみRLをスケーリングするよりも効率的で計算的に効率的である。

関連論文リスト

Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。 LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文参考訳（メタデータ） (2025-02-24T18:30:36Z)
Diffusion-Based Offline RL for Improved Decision-Making in Augmented ARC Task [10.046325073900297]
SOLAR(Abstraction and Reasoning)のための拡張オフラインRLデータセットを提案する。 SOLARは、十分な経験データを提供することで、オフラインのRLメソッドの適用を可能にする。本実験は, 簡単なARCタスクにおけるオフラインRL手法の有効性を実証する。
論文参考訳（メタデータ） (2024-10-15T06:48:27Z)
RACCER: Towards Reachable and Certain Counterfactual Explanations for Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文参考訳（メタデータ） (2023-03-08T09:47:00Z)
Deep reinforcement learning for fMRI prediction of Autism Spectrum Disorder [0.0]
Autism Brain Imaging Data Exchange (ABIDE)データベースから100グラフラベル対のDep Reinforcement Learning (DRL)分類器を訓練した。比較のために、我々は同じトレーニングセットでSupervised Deep Learning (SDL)分類器を訓練した。 DRL は 2.4 x 10(-7) の p 値で SDL を著しく上回った
論文参考訳（メタデータ） (2022-06-17T01:04:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。