論文の概要: $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2507.00316v2
- Date: Wed, 02 Jul 2025 01:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.053226
- Title: $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation
- Title(参考訳): $μ^2$Tokenizer:ラジオロジーレポート生成のための微分可能なマルチスケールマルチモードトケナイザ
- Authors: Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu, Le Zhang,
- Abstract要約: 我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。
中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。
そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
- 参考スコア(独自算出の注目度): 9.947108972979155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated radiology report generation (RRG) aims to produce detailed textual reports from clinical imaging, such as computed tomography (CT) scans, to improve the accuracy and efficiency of diagnosis and provision of management advice. RRG is complicated by two key challenges: (1) inherent complexity in extracting relevant information from imaging data under resource constraints, and (2) difficulty in objectively evaluating discrepancies between model-generated and expert-written reports. To address these challenges, we propose $\mu^2$LLM, a $\underline{\textbf{mu}}$ltiscale $\underline{\textbf{mu}}$ltimodal large language models for RRG tasks. The novel ${\mu}^2$Tokenizer, as an intermediate layer, integrates multi-modal features from the multiscale visual tokenizer and the text tokenizer, then enhances report generation quality through direct preference optimization (DPO), guided by GREEN-RedLlama. Experimental results on four large CT image-report medical datasets demonstrate that our method outperforms existing approaches, highlighting the potential of our fine-tuned $\mu^2$LLMs on limited data for RRG tasks. At the same time, for prompt engineering, we introduce a five-stage, LLM-driven pipeline that converts routine CT reports into paired visual-question-answer triples and citation-linked reasoning narratives, creating a scalable, high-quality supervisory corpus for explainable multimodal radiology LLM. All code, datasets, and models will be publicly available in our official repository. https://github.com/Siyou-Li/u2Tokenizer
- Abstract(参考訳): 自動放射線診断レポート生成(RRG)は、CTスキャンなどの臨床画像から詳細なテキストレポートを作成することを目的としており、診断の精度と効率を改善し、管理アドバイスを提供する。
RRGは,(1)資源制約下の画像データから関連情報を抽出する際の固有の複雑さ,(2)モデル生成と専門家による報告の相違を客観的に評価することの難しさ,の2つの主要な課題によって複雑化している。
これらの課題に対処するために、RRGタスク用の大言語モデルである$\mu^2$LLM, a $\underline{\textbf{mu}}$ltiscale $\underline{\textbf{mu}}$ltimodalを提案する。
中間層としての${\mu}^2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合し、GREEN-RedLlamaによってガイドされた直接選好最適化(DPO)を通じてレポート生成品質を向上させる。
4つの大きなCT画像レポート医療データセットによる実験結果から,提案手法は既存のアプローチよりも優れており,RRGタスクの限られたデータに対して,細調整した$\mu^2$LLMsの可能性が示された。
同時に、迅速なエンジニアリングを行うため、5段階のLCM駆動パイプラインを導入し、定期的なCTレポートをペア化されたビジュアルクエスト・アンサー・トリプルと引用リンク推論の物語に変換し、スケーラブルで高品質なマルチモーダルラジオロジー用コーパスを作成する。
すべてのコード、データセット、モデルは、私たちの公式リポジトリで公開されます。
https://github.com/Siyou-Li/u2Tokenizer
関連論文リスト
- A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Leveraging LLMs for Multimodal Retrieval-Augmented Radiology Report Generation via Key Phrase Extraction [0.0]
本稿では,多モーダル検索と大規模言語モデルを活用した検索拡張生成手法を提案する。
本手法は, LLMを用いて放射線学報告から重要なフレーズを抽出し, 本質的な診断情報に効果的に焦点をあてる。
我々は、MIMIC-CXRデータセットに対するアプローチを評価し、CheXbertメトリクスと競合するRadGraph F1メトリクスの最先端結果を得た。
論文 参考訳(メタデータ) (2025-04-10T03:14:01Z) - LLM-RG4: Flexible and Factual Radiology Report Generation across Diverse Input Contexts [14.72366043711941]
現在の放射線学レポート生成モデルは、固定的なタスクパラダイムに制約されている。
本稿ではLLM-RG4という新しい大規模言語モデル(LLM)に基づくRRGフレームワークを提案する。
我々のモデルは入力非依存の幻覚を最小限に抑えているのに対し、現在のオープンソースモデルは一般的にこの問題に悩まされている。
論文 参考訳(メタデータ) (2024-12-16T17:29:51Z) - Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文 参考訳(メタデータ) (2024-12-05T20:43:39Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。