論文の概要: Enhancing Reinforcement Learning for Radiology Report Generation with Evidence-aware Rewards and Self-correcting Preference Learning
- arxiv url: http://arxiv.org/abs/2604.13598v1
- Date: Wed, 15 Apr 2026 08:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.446199
- Title: Enhancing Reinforcement Learning for Radiology Report Generation with Evidence-aware Rewards and Self-correcting Preference Learning
- Title(参考訳): Evidence-Aware Rewards and Self-correcting Preference Learning を用いた放射線学レポート作成のための強化学習の強化
- Authors: Qin Zhou, Guoyan Liang, Qianyi Yang, Jingyuan Chen, Sai Wu, Chang Yao, Zhe Wang,
- Abstract要約: Evidence-aware Self-Correcting Reinforcement Learning (ESC-RL)について紹介する。
まず,グループワイドなアライメント・アライメント・リワード(GEAR)がグループワイドなエビデンス・アライメント・アライメント・リワード(GEAR)を提供する。
第二に、SPL(Self-correcting Preference Learning)戦略は、信頼性が高く、病気を意識した選好データセットを自動構築する。
- 参考スコア(独自算出の注目度): 34.86775263060098
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent reinforcement learning (RL) approaches have advanced radiology report generation (RRG), yet two core limitations persist: (1) report-level rewards offer limited evidence-grounded guidance for clinical faithfulness; and (2) current methods lack an explicit self-improving mechanism to align with clinical preference. We introduce clinically aligned Evidence-aware Self-Correcting Reinforcement Learning (ESC-RL), comprising two key components. First, a Group-wise Evidence-aware Alignment Reward (GEAR) delivers group-wise, evidence-aware feedback. GEAR reinforces consistent grounding for true positives, recovers missed findings for false negatives, and suppresses unsupported content for false positives. Second, a Self-correcting Preference Learning (SPL) strategy automatically constructs a reliable, disease-aware preference dataset from multiple noisy observations and leverages an LLM to synthesize refined reports without human supervision. ESC-RL promotes clinically faithful, disease-aligned reward and supports continual self-improvement during training. Extensive experiments on two public chest X-ray datasets demonstrate consistent gains and state-of-the-art performance.
- Abstract(参考訳): 近年の強化学習 (RL) アプローチでは, 先進的な放射線学報告生成 (RRG) が持続するが, 報告レベルの報酬は, 臨床上の忠実性に対する根拠に基づく指導に限られており, 2) 臨床上の嗜好と整合する明示的な自己改善機構が欠如している。
臨床的に整合した自己補正強化学習(Evidence-aware Self-Correcting Reinforcement Learning, ESC-RL)を2つの重要な構成要素から導入する。
まず,グループワイドなアライメント・アライメント・リワード(GEAR)がグループワイドなエビデンス・アライメント・アライメント・リワード(GEAR)を提供する。
GEARは、真陽性に対する一貫した根拠を強化し、偽陰性に対する発見の欠如を回復し、偽陽性に対する支持コンテンツを抑制する。
第二に、SPL(Self-correcting Preference Learning)戦略は、複数のノイズの観測から、信頼性が高く、病気を意識した選好データセットを自動構築し、LLMを活用して、人間の監督なしに洗練されたレポートを合成する。
ESC-RLは、臨床的に忠実で、病気に適応した報酬を促進し、トレーニング中の継続的な自己改善をサポートする。
2つの公開胸部X線データセットに対する大規模な実験は、一貫した利得と最先端のパフォーマンスを示している。
関連論文リスト
- Calibrated Confidence Expression for Radiology Report Generation [33.24673060327421]
放射線学レポート生成における大規模視覚言語モデル(LVLM)は、正確な予測と臨床的に解釈可能な指標を必要とする。
現在の最先端言語モデルはしばしば自信過剰であり、放射線学レポート生成などのマルチモーダル設定における校正に関する研究は限られている。
本稿では,LVLMを微調整する医療強化学習フレームワークであるConRadを紹介する。
論文 参考訳(メタデータ) (2026-03-31T09:37:33Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文 参考訳(メタデータ) (2025-09-18T13:35:14Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - Leaps Beyond the Seen: Reinforced Reasoning Augmented Generation for Clinical Notes [10.897880916802864]
ReinRAG (ReinRAG) は、入力前情報に基づく長期放電命令のための推論拡張生成(RAG)である。
情報ギャップを埋めるため,グループ正規化報酬による検索品質の向上を目的としたグループベースレトリバー最適化(GRO)を提案する。
実世界のデータセットの実験では、ReinRAGは臨床効果と自然言語生成の指標の両方においてベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T12:59:52Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。