論文の概要: Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports
- arxiv url: http://arxiv.org/abs/2604.19060v1
- Date: Tue, 21 Apr 2026 04:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.611689
- Title: Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports
- Title(参考訳): 放射線診断における強化学習によるLSMの精度向上と推論
- Authors: Yishu Wei, Yi Lin, Adam Flanders, George Shih, Yifan Peng,
- Abstract要約: 疾患ラベルのSFTとGRPOを併用した2段階の手法を提案する。
放射線学者が注釈を付けた3つのデータセット、SFTはベースラインを上回り、GRPOはさらに分類を改善し、推論のリコールと包括性を向上した。
- 参考スコア(独自算出の注目度): 9.07908084878151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate disease classification from radiology reports is essential for many applications. While supervised fine-tuning (SFT) of lightweight LLMs improves accuracy, it can degrade reasoning. We propose a two-stage approach: SFT on disease labels followed by Group Relative Policy Optimization (GRPO) to refine predictions by optimizing accuracy and format without reasoning supervision. Across three radiologist-annotated datasets, SFT outperformed baselines and GRPO further improved classification and enhanced reasoning recall and comprehensiveness.
- Abstract(参考訳): 放射線医学報告からの正確な疾患分類は多くの応用に不可欠である。
軽量LLMの教師付き微調整(SFT)は精度を向上するが、推論の精度は低下する。
疾患ラベルに対するSFTとGRPO(Group Relative Policy Optimization)の2段階のアプローチを提案する。
放射線学者が注釈を付けた3つのデータセット、SFTはベースラインを上回り、GRPOはさらに分類を改善し、推論のリコールと包括性を向上した。
関連論文リスト
- EviCare: Enhancing Diagnosis Prediction with Deep Model-Guided Evidence for In-Context Reasoning [62.61394722212386]
EviCareは、大規模言語モデルにディープモデルガイダンスを統合する、コンテキスト内推論フレームワークである。
LLMのみのベースラインと深層モデルのみのベースラインを2つの実世界のEHRベンチマークで連続的に上回っている。
論文 参考訳(メタデータ) (2026-04-12T04:35:14Z) - VERT: Reliable LLM Judges for Radiology Report Evaluation [4.257039323799664]
専門家とLLMに基づく評価の相関分析を行う。
VERTはGREENと比較して、放射線学者の判断との相関を最大11.7%改善する。
微調整のQwen3 30Bは1,300のトレーニングサンプルを使用して最大25%の利得を得る。
論文 参考訳(メタデータ) (2026-04-03T18:10:21Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Knowledge Elicitation with Large Language Models for Interpretable Cancer Stage Identification from Pathology Reports [2.5829043503611318]
本稿では,大きな言語モデルによるがんステージングのためのドメイン固有のルールの推論と適用を可能にすることにより,制限を克服する2つの知識抽出手法を提案する。
1つ目は、KEwLTM(Knowledge Elicitation with Long-Term Memory)で、未発表の病理報告から直接ステージングルールを導出するために反復的なプロンプト戦略を使用している。
第2のKEwRAG(Knowledge Elicitation with Retrieval-Augmented Generation)では、ルールを関連するガイドラインから1ステップで事前抽出し、適用することで、解釈可能性を高め、繰り返しのリカバリオーバーヘッドを回避するという、RAGのバリエーションを採用している。
論文 参考訳(メタデータ) (2025-11-02T19:00:40Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation [26.170972612471683]
放射線学レポート生成には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。
本稿では,臨床動機による報酬生成を最適化する混合政治強化学習アルゴリズムであるEditGRPOを紹介する。
論文 参考訳(メタデータ) (2025-09-26T18:19:00Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Comment: Entropy Learning for Dynamic Treatment Regimes [58.442274475425144]
JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
論文 参考訳(メタデータ) (2020-04-06T16:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。