論文の概要: Process Reward Models for Sentence-Level Verification of LVLM Radiology Reports
- arxiv url: http://arxiv.org/abs/2510.23217v1
- Date: Mon, 27 Oct 2025 11:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.532368
- Title: Process Reward Models for Sentence-Level Verification of LVLM Radiology Reports
- Title(参考訳): LVLMラジオグラフィーレポートの文レベル検証のためのプロセスリワードモデル
- Authors: Alois Thomas, Maya Varma, Jean-Benoit Delbrouck, Curtis P. Langlotz,
- Abstract要約: 本稿では,この視覚言語タスクに適応した文レベル・リワード・モデル(PRM)を提案する。
PRMは、臨床文脈で条件付けられた各生成文の事実的正当性を予測する。
PRMスコアは、F1-CheXbertスコアを4.5%改善する低品質レポートを効果的にフィルタする。
- 参考スコア(独自算出の注目度): 12.808813933646407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating radiology report generation with Large Vision-Language Models (LVLMs) holds great potential, yet these models often produce clinically critical hallucinations, posing serious risks. Existing hallucination detection methods frequently lack the necessary sentence-level granularity or robust generalization across different LVLM generators. We introduce a novel approach: a sentence-level Process Reward Model (PRM) adapted for this vision-language task. Our PRM predicts the factual correctness of each generated sentence, conditioned on clinical context and preceding text. When fine-tuned on MIMIC-CXR with weakly-supervised labels, a lightweight 0.5B-parameter PRM outperforms existing verification techniques, demonstrating, for instance, relative improvements of 7.5% in Matthews Correlation Coefficient and 1.8% in AUROC over strong white-box baselines on outputs from one LVLM. Unlike methods reliant on internal model states, our PRM demonstrates strong generalization to an unseen LVLM. We further show its practical utility: PRM scores effectively filter low-quality reports, improving F1-CheXbert scores by 4.5% (when discarding the worst 10% of reports). Moreover, when guiding a novel weighted best-of-N selection process on the MIMIC-CXR test set, our PRM show relative improvements in clinical metrics of 7.4% for F1-CheXbert and 0.6% for BERTScore. These results demonstrate that a lightweight, context-aware PRM provides a model-agnostic safety layer for clinical LVLMs without access to internal activations
- Abstract(参考訳): LVLM(Large Vision-Language Models)を用いた放射線学レポートの自動生成は大きな可能性を秘めている。
既存の幻覚検出法は、異なるLVLMジェネレータ間で必要な文レベルの粒度や堅牢な一般化を欠いていることが多い。
本稿では,この視覚言語タスクに適応した文レベルプロセスリワードモデル(PRM)を提案する。
PRMは,臨床コンテキストと先行テキストに基づいて,各文の事実的正当性を予測した。
MIMIC-CXRを弱教師付きラベルで微調整すると、0.5BパラメータのPRMは既存の検証技術より優れており、例えばマシューズ相関係数の7.5%とAUROCの1.8%の相対的な改善は、1つのLVLMからの出力に対する強いホワイトボックスベースラインよりも優れている。
内部モデル状態に依存した手法とは異なり、PRMは未知のLVLMに対して強い一般化を示す。
PRMスコアは、低品質のレポートを効果的にフィルタリングし、F1-CheXbertスコアを4.5%改善する(レポートの最悪の10%を破棄する)。
さらに,MIMIC-CXRテストセットにおける新規N選択プロセスの導出では,F1-CheXbertが7.4%,BERTScoreが0.6%と,臨床指標の相対的な改善が見られた。
これらの結果は、軽量でコンテキスト対応のPRMが、内的アクティベーションにアクセスせずに臨床用LVLMにモデルに依存しない安全層を提供することを示した。
関連論文リスト
- ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation [2.821158017021184]
Look & Mark (L&M) は、放射線医学的アイフィクス(Look)とバウンディングボックスアノテーション(Mark)を統合した新しい接地固定戦略である。
LLaVA-OVは87.3%の臨床平均成績(C.AVG)を達成しており、L&Mとインコンテキストラーニングを組み合わせた汎用モデルもすべてのモデルの中で最高である。
論文 参考訳(メタデータ) (2025-05-28T10:54:40Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters [16.74673750576054]
データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。
LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
論文 参考訳(メタデータ) (2025-03-26T21:38:06Z) - Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [14.052630186550628]
プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2024-12-17T06:24:34Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Advancing Radiograph Representation Learning with Masked Record Modeling [52.04899592688968]
我々は2つの相補的な目的として自己と報告の補完を定式化し、マスク付きレコードモデリング(MRM)に基づく統一的な枠組みを提案する。
MRMは、知識強化されたセマンティック表現を学ぶためのマルチタスクスキームに従って、マスクされた画像パッチとマスクされたレポートトークンを再構築する。
具体的には、MRMはラベル効率の良い微調整において優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T18:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。