論文の概要: OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2509.18600v1
- Date: Tue, 23 Sep 2025 03:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.683568
- Title: OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
- Title(参考訳): OraPO: Oracleが教育したデータ効率とFactual Radiologyレポート生成のための強化学習
- Authors: Zhuoxiao Chen, Hongyang Yu, Ying Xu, Yadan Luo, Long Duong, Yuan-Fang Li,
- Abstract要約: 放射線診断報告生成(RRG)は、胸部X線画像から臨床に忠実な報告を自動的に生成することを目的としている。
制約付き予算下でRRGタスクに取り組むためにFactScoreベースの報酬(FactS)を備えたOracleで教育されたGRPO OraPOを提案する。
- 参考スコア(独自算出の注目度): 38.32203263213622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Radiology report generation (RRG) aims to automatically produce clinically faithful reports from chest X-ray images. Prevailing work typically follows a scale-driven paradigm, by multi-stage training over large paired corpora and oversized backbones, making pipelines highly data- and compute-intensive. In this paper, we propose Oracle-educated GRPO {OraPO) with a FactScore-based reward (FactS) to tackle the RRG task under constrained budgets. OraPO enables single-stage, RL-only training by converting failed GRPO explorations on rare or difficult studies into direct preference supervision via a lightweight oracle step. FactS grounds learning in diagnostic evidence by extracting atomic clinical facts and checking entailment against ground-truth labels, yielding dense, interpretable sentence-level rewards. Together, OraPO and FactS create a compact and powerful framework that significantly improves learning efficiency on clinically challenging cases, setting the new SOTA performance on the CheXpert Plus dataset (0.341 in F1) with 2--3 orders of magnitude less training data using a small base VLM on modest hardware.
- Abstract(参考訳): 放射線診断報告生成(RRG)は、胸部X線画像から臨床に忠実な報告を自動的に生成することを目的としている。
一般的な作業は、大規模なペアコーパスと過大なバックボーンによるマルチステージトレーニングによって、データと計算集約性の高いパイプラインを実現する、スケール駆動のパラダイムに従っている。
本稿では,FactScore ベースの報酬 (FactS) を付加した Oracle による GRPO {OraPO) を提案する。
OraPOは、失敗に終わったGRPO探査を、希少または難しい研究に変換して、軽量のオラクルステップを通じて直接優先的な監視を行うことで、単一段階のRLのみのトレーニングを可能にする。
FactSは、アトミックな臨床事実を抽出し、地味ラベルを検査することで、診断証拠の学習を基礎としており、密度の高い解釈可能な文レベルの報酬をもたらす。
OraPOとFactSは共同で、CheXpert Plusデータセット(0.341 in F1)に新たなSOTAパフォーマンスを2~3桁のトレーニングデータで設定し、最小限のハードウェア上で小さなベースVLMを使用して学習効率を大幅に向上する、コンパクトで強力なフレームワークを作成している。
関連論文リスト
- Data Scaling Laws for Radiology Foundation Models [40.553809969659035]
CLIPやDINOv2といったWebスケールのデータに基づいてトレーニングされたファンデーションビジョンエンコーダは、タスクやデータセット間で強力な転送パフォーマンスを示す。
MedImageInsight (MI2) と RAD-DINO という2つの視覚エンコーダの連続的事前訓練を1つの施設から3.5M胸部X線で系統的に検討した。
論文 参考訳(メタデータ) (2025-09-16T08:36:06Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers [0.2158126716116375]
DeBERTa-RADは、最先端のLLM擬似ラベル付けのパワーと、DeBERTaに基づく効率的な知識蒸留を組み合わせた、高精度で高速な胸部X線レポートラベリングのための新しいフレームワークである。
専門家によるMIMIC-500ベンチマークで、DeBERTa-RADは最先端のマクロF1スコア0.9120を達成している。
論文 参考訳(メタデータ) (2025-05-03T04:50:55Z) - The Impact of LoRA Adapters on LLMs for Clinical Text Classification Under Computational and Data Constraints [32.23468444597675]
臨床自然言語処理(NLP)のための細調整された大規模言語モデル(LLM)は、ドメインギャップ、限られたデータ、厳密なハードウェア制約のために大きな課題を提起する。
本研究では,適応器,軽量化,TinyAttention,Gated Residual Network (GRN) の4つのアダプタ技術の評価を行った。
すべての実験は1つのNVIDIA P620 GPU(2GB VRAM、512コア、1.386TFLOPS FP32)で行われ、バッチサイズは2568、シーケンス長は2568トークンに制限された。
論文 参考訳(メタデータ) (2024-07-27T16:48:03Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。