論文の概要: CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings
- arxiv url: http://arxiv.org/abs/2507.17234v2
- Date: Tue, 05 Aug 2025 04:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.677554
- Title: CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings
- Title(参考訳): CLARIFID: 正確な印象と詳細な所見の強調による放射線学レポート作成の改善
- Authors: Kyeongkyu Lee, Seonghwan Yoon, Hongki Lim,
- Abstract要約: 専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic generation of radiology reports has the potential to alleviate radiologists' significant workload, yet current methods struggle to deliver clinically reliable conclusions. In particular, most prior approaches focus on producing fluent text without effectively ensuring the factual correctness of the reports and often rely on single-view images, limiting diagnostic comprehensiveness. We propose CLARIFID, a novel framework that directly optimizes diagnostic correctness by mirroring the two-step workflow of experts. Specifically, CLARIFID (1) learns the logical flow from Findings to Impression through section-aware pretraining, (2) is fine-tuned with Proximal Policy Optimization in which the CheXbert F1 score of the Impression section serves as the reward, (3) enforces reasoning-aware decoding that completes "Findings" before synthesizing the "Impression", and (4) fuses multiple chest X-ray views via a vision-transformer-based multi-view encoder. During inference, we apply a reasoning-aware next-token forcing strategy followed by report-level re-ranking, ensuring that the model first produces a comprehensive Findings section before synthesizing the Impression and thereby preserving coherent clinical reasoning. Experimental results on the MIMIC-CXR dataset demonstrate that our method achieves superior clinical efficacy and outperforms existing baselines on both standard NLG metrics and clinically aware scores.
- Abstract(参考訳): 放射線学報告の自動生成は、放射線科医の重要な作業負荷を軽減する可能性があるが、現在の手法は臨床的に信頼できる結論を出すのに苦労している。
特に、従来のほとんどのアプローチは、レポートの事実的正しさを効果的に保証せず、診断的包括性を制限するシングルビュー画像に頼っている。
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
特に、CLARIFID(1)は、セクション認識事前学習を通してFindersからImpressionへの論理フローを学習し、(2)ImpressionセクションのCheXbert F1スコアが報酬となるプロキシポリシー最適化を微調整し、(3)"Impression"を合成する前に"Findings"を完了する推論認識復号を強制し、(4)視覚変換器ベースのマルチビューエンコーダを介して複数の胸部X線ビューを融合させる。
推論では,まず印象の合成に先立って総合的な発見セクションを作成した上で,一貫性のある臨床推論を保った。
MIMIC-CXRデータセットによる実験結果から,本手法は優れた臨床効果を達成し,標準NLG測定値と臨床意識スコアの両方で既存のベースラインを上回っていることが示された。
関連論文リスト
- PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。
ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。
ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文 参考訳(メタデータ) (2025-08-07T13:02:20Z) - CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning [28.737391224748798]
胸部X線(CXR)課題に対するインターリーブ"思考答え"推論を実現するための最初の生成モデルであるCX-Mindを提案する。
CX-Mindはカリキュラム強化学習と検証プロセス報酬(RL-VPR)によって駆動される
CX-Mindは、視覚的理解、テキスト生成、アライメントにおいて、既存の医用および一般ドメインMLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-31T05:07:18Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - Revolutionizing Radiology Workflow with Factual and Efficient CXR Report Generation [0.0]
本稿では,胸部X線自動生成に特化して開発されたLLM中心の基盤モデルであるCXR-PathFinderを紹介する。
本稿では,専門的な臨床フィードバックを相手の学習フレームワークに統合する,ユニークな訓練パラダイムであるCGAFTを提案する。
我々の実験は、CXR-PathFinderが、様々なメトリクスで既存の最先端の医療ビジョン言語モデルを大幅に上回っていることを実証した。
論文 参考訳(メタデータ) (2025-06-01T18:47:49Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.6355783973385114]
多視点認識知識強化型TansfoRmer(MvKeTR)
複数の解剖学的ビューから診断情報を効果的に合成するために、ビューアウェアのMVPAを提案する。
クエリボリュームに基づいて、最も類似したレポートを取得するために、Cross-Modal Knowledge Enhancer (CMKE) が考案されている。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Improving the Factual Accuracy of Abstractive Clinical Text
Summarization using Multi-Objective Optimization [3.977582258550673]
本稿では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のためのフレームワークを提案する。
本研究では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のための枠組みを提案する。
論文 参考訳(メタデータ) (2022-04-02T07:59:28Z) - Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation [3.3978173451092437]
放射線画像から記述テキストを自動的に生成することを目的とした放射線学レポート生成。
典型的な設定は、エンコーダとデコーダのモデルを、クロスエントロピー損失のあるイメージレポートペアでトレーニングする。
本稿では,医療報告生成におけるコントラスト損失の弱化について提案する。
論文 参考訳(メタデータ) (2021-09-25T00:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。