Fugu-MT 論文翻訳(概要): EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation

論文の概要: EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation

arxiv url: http://arxiv.org/abs/2509.22812v2
Date: Mon, 10 Nov 2025 01:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-11 19:11:14.324772
Title: EditGRPO: Reinforcement Learning with Post-Rollout Edits for Clinically Accurate Chest X-Ray Report Generation
Title（参考訳）: EditGRPO: 臨床精度の高い胸部X線レポート作成のためのポストロールアウト編集による強化学習
Authors: Kai Zhang, Christopher Malon, Lichao Sun, Martin Renqiang Min,
Abstract要約: 放射線学レポート生成には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。本稿では,臨床動機による報酬生成を最適化する混合政治強化学習アルゴリズムであるEditGRPOを紹介する。
参考スコア（独自算出の注目度）: 26.170972612471683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Radiology report generation requires advanced medical image analysis, effective temporal reasoning, and accurate text generation. Although recent innovations, particularly multimodal large language models, have shown improved performance, their supervised fine-tuning (SFT) objective is not explicitly aligned with clinical efficacy. In this work, we introduce EditGRPO, a mixed-policy reinforcement learning algorithm designed specifically to optimize the generation through clinically motivated rewards. EditGRPO integrates on-policy exploration with off-policy guidance by injecting sentence-level detailed corrections during training rollouts. This mixed-policy approach addresses the exploration dilemma and sampling efficiency issues typically encountered in RL. Applied to a Qwen2.5-VL-3B, EditGRPO outperforms both SFT and vanilla GRPO baselines, achieving an average improvement of 3.4\% in clinical metrics across four major datasets. Notably, EditGRPO also demonstrates superior out-of-domain generalization, with an average performance gain of 5.9\% on unseen datasets.
Abstract（参考訳）: 放射線学レポート生成には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。近年の革新、特に多モーダルな言語モデルではパフォーマンスが向上しているが、その制御された微調整(SFT)の目的は臨床効果と明確に一致していない。本研究は,臨床動機による報酬生成を最適化する複合政治強化学習アルゴリズムであるEditGRPOを紹介する。 EditGRPOは、トレーニングロールアウト中に文レベルの詳細な修正を注入することで、政治上の探究と政治外のガイダンスを統合する。この混合政治アプローチは、通常RLで遭遇する探索ジレンマとサンプリング効率の問題に対処する。 Qwen2.5-VL-3B に適用すると、EditGRPO は SFT と vanilla GRPO のベースラインを上回り、4つの主要なデータセットで平均 3.4 % の精度向上を実現している。特に、EditGRPOはドメイン外一般化に優れており、平均的なパフォーマンスは目に見えないデータセットで5.9\%向上している。

関連論文リスト

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation [38.32203263213622]
放射線診断報告生成(RRG)は、胸部X線画像から臨床に忠実な報告を自動的に生成することを目的としている。制約付き予算下でRRGタスクに取り組むためにFactScoreベースの報酬(FactS)を備えたOracleで教育されたGRPO OraPOを提案する。
論文参考訳（メタデータ） (2025-09-23T03:42:26Z)
Random Direct Preference Optimization for Radiography Report Generation [3.5915338392912344]
医用画像解析において放射線診断報告生成(RRG)が注目されている。既存の方法はまだ実際の臨床環境での展開に必要な品質を達成できていない。 DPO(Direct Preference Optimization)を用いたRRGの精度向上のためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-19T10:53:45Z)
Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文参考訳（メタデータ） (2025-08-15T20:50:53Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文参考訳（メタデータ） (2025-05-24T18:58:51Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
Knowledge-augmented Pre-trained Language Models for Biomedical Relation Extraction [3.13957359732631]
自動関係抽出(RE)のための微調整事前学習言語モデル(PLM)における追加コンテキスト情報の導入による性能向上に関する研究本研究は,一貫した評価枠組み内での4つの関係シナリオにまたがる5つのデータセットの文脈情報によって強化されたPLMを評価することで,この研究ギャップに対処する。文脈情報の導入は, 全体的な改善に留まらず, 微調整中に外部データを含む場合, より小さなPLMに対して大きなメリットが示された。
論文参考訳（メタデータ） (2025-05-01T19:16:18Z)
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文参考訳（メタデータ） (2024-02-09T11:23:14Z)
Biomedical knowledge graph-optimized prompt generation for large language models [1.6658478064349376]
大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。本稿では,トークン最適化およびロバストな知識グラフに基づくRetrieval Augmented Generationフレームワークを紹介する。
論文参考訳（メタデータ） (2023-11-29T03:07:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。