論文の概要: Random Direct Preference Optimization for Radiography Report Generation
- arxiv url: http://arxiv.org/abs/2509.21351v1
- Date: Fri, 19 Sep 2025 10:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.855652
- Title: Random Direct Preference Optimization for Radiography Report Generation
- Title(参考訳): ラジオグラフィーレポート生成のためのランダム直接選好最適化
- Authors: Valentin Samokhin, Boris Shirokikh, Mikhail Goncharov, Dmitriy Umerenkov, Maksim Bobrin, Ivan Oseledets, Dmitry Dylov, Mikhail Belyaev,
- Abstract要約: 医用画像解析において放射線診断報告生成(RRG)が注目されている。
既存の方法はまだ実際の臨床環境での展開に必要な品質を達成できていない。
DPO(Direct Preference Optimization)を用いたRRGの精度向上のためのモデルに依存しないフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.5915338392912344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiography Report Generation (RRG) has gained significant attention in medical image analysis as a promising tool for alleviating the growing workload of radiologists. However, despite numerous advancements, existing methods have yet to achieve the quality required for deployment in real-world clinical settings. Meanwhile, large Visual Language Models (VLMs) have demonstrated remarkable progress in the general domain by adopting training strategies originally designed for Large Language Models (LLMs), such as alignment techniques. In this paper, we introduce a model-agnostic framework to enhance RRG accuracy using Direct Preference Optimization (DPO). Our approach leverages random contrastive sampling to construct training pairs, eliminating the need for reward models or human preference annotations. Experiments on supplementing three state-of-the-art models with our Random DPO show that our method improves clinical performance metrics by up to 5%, without requiring any additional training data.
- Abstract(参考訳): ラジオグラフィーレポート生成 (RRG) は, 放射線技師の作業量増加を緩和するための有望なツールとして, 医用画像解析において大きな注目を集めている。
しかし、多くの進歩にもかかわらず、既存の手法はまだ実際の臨床環境での展開に必要な品質を達成できていない。
一方、大規模なビジュアル言語モデル(VLM)は、アライメント技術など、もともとLLM(Large Language Models)用に設計されたトレーニング戦略を採用することで、一般領域において顕著な進歩を見せている。
本稿では,DPO(Direct Preference Optimization)を用いてRRGの精度を向上させるためのモデルに依存しないフレームワークを提案する。
提案手法は、ランダムなコントラストサンプリングを利用してトレーニングペアを構築し、報酬モデルや人間の嗜好アノテーションを必要としないようにする。
我々のRandom DPOを用いた3つの最先端モデルの補足実験により,追加のトレーニングデータを必要としない臨床成績指標を最大5%改善することを確認した。
関連論文リスト
- Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - Online Iterative Self-Alignment for Radiology Report Generation [10.287396040943575]
本稿では,ラジオロジーレポート生成(RRG)のための新しいオンライン反復自己アライメント(OISA)手法を提案する。
本手法により,特定の臨床目的に適した各種報告を作成でき,RRGモデル全体の性能を反復的に向上させることができる。
論文 参考訳(メタデータ) (2025-05-17T12:31:12Z) - Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis [4.803310914375717]
本研究では,3つの視覚言語基盤モデル(RAD-DINO,CheXagent,BiomedCLIP)を,放射線学タスクの微細な画像特徴を捉える能力について評価した。
胸部X線写真上, 気胸, 心肥大に対する分類, セグメンテーション, 回帰作業で評価した。
論文 参考訳(メタデータ) (2025-04-22T17:20:34Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Training custom modality-specific U-Net models with weak localizations
for improved Tuberculosis segmentation and localization [0.6999740786886535]
UNetセグメンテーションモデルは従来の手工芸品よりも優れた性能を示している。
結核の鑑別診断のためのカスタム胸部x線モダリティ特定unetモデルの訓練を行った。
論文 参考訳(メタデータ) (2021-02-21T14:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。