論文の概要: Random Direct Preference Optimization for Radiography Report Generation
- arxiv url: http://arxiv.org/abs/2509.21351v1
- Date: Fri, 19 Sep 2025 10:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.855652
- Title: Random Direct Preference Optimization for Radiography Report Generation
- Title(参考訳): ラジオグラフィーレポート生成のためのランダム直接選好最適化
- Authors: Valentin Samokhin, Boris Shirokikh, Mikhail Goncharov, Dmitriy Umerenkov, Maksim Bobrin, Ivan Oseledets, Dmitry Dylov, Mikhail Belyaev,
- Abstract要約: 医用画像解析において放射線診断報告生成(RRG)が注目されている。
既存の方法はまだ実際の臨床環境での展開に必要な品質を達成できていない。
DPO(Direct Preference Optimization)を用いたRRGの精度向上のためのモデルに依存しないフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.5915338392912344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiography Report Generation (RRG) has gained significant attention in medical image analysis as a promising tool for alleviating the growing workload of radiologists. However, despite numerous advancements, existing methods have yet to achieve the quality required for deployment in real-world clinical settings. Meanwhile, large Visual Language Models (VLMs) have demonstrated remarkable progress in the general domain by adopting training strategies originally designed for Large Language Models (LLMs), such as alignment techniques. In this paper, we introduce a model-agnostic framework to enhance RRG accuracy using Direct Preference Optimization (DPO). Our approach leverages random contrastive sampling to construct training pairs, eliminating the need for reward models or human preference annotations. Experiments on supplementing three state-of-the-art models with our Random DPO show that our method improves clinical performance metrics by up to 5%, without requiring any additional training data.
- Abstract(参考訳): ラジオグラフィーレポート生成 (RRG) は, 放射線技師の作業量増加を緩和するための有望なツールとして, 医用画像解析において大きな注目を集めている。
しかし、多くの進歩にもかかわらず、既存の手法はまだ実際の臨床環境での展開に必要な品質を達成できていない。
一方、大規模なビジュアル言語モデル(VLM)は、アライメント技術など、もともとLLM(Large Language Models)用に設計されたトレーニング戦略を採用することで、一般領域において顕著な進歩を見せている。
本稿では,DPO(Direct Preference Optimization)を用いてRRGの精度を向上させるためのモデルに依存しないフレームワークを提案する。
提案手法は、ランダムなコントラストサンプリングを利用してトレーニングペアを構築し、報酬モデルや人間の嗜好アノテーションを必要としないようにする。
我々のRandom DPOを用いた3つの最先端モデルの補足実験により,追加のトレーニングデータを必要としない臨床成績指標を最大5%改善することを確認した。
関連論文リスト
- X-ray Insights Unleashed: Pioneering the Enhancement of Multi-Label Long-Tail Data [86.52299247918637]
胸部X線撮影における長期肺腫瘍の診断は困難であった。
尾部病変の表現力を高める拡散法は近年進歩しているが, 稀な病変例では, それらの発生能が低下している。
そこで本研究では,従来のX線を併用して尾部病変を増大させる新しいデータ合成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-24T06:14:55Z) - Model Agnostic Preference Optimization for Medical Image Segmentation [5.289507655906182]
優先度最適化は、相対的な優先順位信号に基づくスケーラブルな監視パラダイムを提供する。
我々は,Dropout-driven segmentation仮説を用いたトレーニングフレームワークMAPO(Model-A Preference Optimization)を提案する。
MAPOは完全に次元に依存しない2D/3D CNNとTransformerベースのセグメンテーションパイプラインをサポートする。
論文 参考訳(メタデータ) (2025-12-17T01:50:52Z) - EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation [16.23892817333913]
EMRRGは、トレーニング済みのMambaネットワークを微調整する新しいX線レポート生成フレームワークである。
ハイブリッドデコーダを備えたLCMは、医療レポートを生成し、エンドツーエンドのトレーニングを可能にし、ベンチマークデータセット上で強力な結果を得ることができる。
論文 参考訳(メタデータ) (2025-10-19T09:54:36Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - Online Iterative Self-Alignment for Radiology Report Generation [10.287396040943575]
本稿では,ラジオロジーレポート生成(RRG)のための新しいオンライン反復自己アライメント(OISA)手法を提案する。
本手法により,特定の臨床目的に適した各種報告を作成でき,RRGモデル全体の性能を反復的に向上させることができる。
論文 参考訳(メタデータ) (2025-05-17T12:31:12Z) - Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis [4.803310914375717]
本研究では,3つの視覚言語基盤モデル(RAD-DINO,CheXagent,BiomedCLIP)を,放射線学タスクの微細な画像特徴を捉える能力について評価した。
胸部X線写真上, 気胸, 心肥大に対する分類, セグメンテーション, 回帰作業で評価した。
論文 参考訳(メタデータ) (2025-04-22T17:20:34Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Multi-Domain Balanced Sampling Improves Out-of-Distribution
Generalization of Chest X-ray Pathology Prediction Models [67.2867506736665]
そこで本研究では, 簡単なバッチサンプリング手法を用いた胸部X線像の分布外一般化法を提案する。
複数のトレーニングデータセット間のバランスの取れたサンプリングは、バランスを取らずにトレーニングされたベースラインモデルよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-12-27T15:28:01Z) - Training custom modality-specific U-Net models with weak localizations
for improved Tuberculosis segmentation and localization [0.6999740786886535]
UNetセグメンテーションモデルは従来の手工芸品よりも優れた性能を示している。
結核の鑑別診断のためのカスタム胸部x線モダリティ特定unetモデルの訓練を行った。
論文 参考訳(メタデータ) (2021-02-21T14:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。