論文の概要: $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2507.00316v2
- Date: Wed, 02 Jul 2025 01:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.053226
- Title: $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation
- Title(参考訳): $μ^2$Tokenizer:ラジオロジーレポート生成のための微分可能なマルチスケールマルチモードトケナイザ
- Authors: Siyou Li, Pengyao Qin, Huanan Wu, Dong Nie, Arun J. Thirunavukarasu, Juntao Yu, Le Zhang,
- Abstract要約: 我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。
中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。
そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
- 参考スコア(独自算出の注目度): 9.947108972979155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated radiology report generation (RRG) aims to produce detailed textual reports from clinical imaging, such as computed tomography (CT) scans, to improve the accuracy and efficiency of diagnosis and provision of management advice. RRG is complicated by two key challenges: (1) inherent complexity in extracting relevant information from imaging data under resource constraints, and (2) difficulty in objectively evaluating discrepancies between model-generated and expert-written reports. To address these challenges, we propose $\mu^2$LLM, a $\underline{\textbf{mu}}$ltiscale $\underline{\textbf{mu}}$ltimodal large language models for RRG tasks. The novel ${\mu}^2$Tokenizer, as an intermediate layer, integrates multi-modal features from the multiscale visual tokenizer and the text tokenizer, then enhances report generation quality through direct preference optimization (DPO), guided by GREEN-RedLlama. Experimental results on four large CT image-report medical datasets demonstrate that our method outperforms existing approaches, highlighting the potential of our fine-tuned $\mu^2$LLMs on limited data for RRG tasks. At the same time, for prompt engineering, we introduce a five-stage, LLM-driven pipeline that converts routine CT reports into paired visual-question-answer triples and citation-linked reasoning narratives, creating a scalable, high-quality supervisory corpus for explainable multimodal radiology LLM. All code, datasets, and models will be publicly available in our official repository. https://github.com/Siyou-Li/u2Tokenizer
- Abstract(参考訳): 自動放射線診断レポート生成(RRG)は、CTスキャンなどの臨床画像から詳細なテキストレポートを作成することを目的としており、診断の精度と効率を改善し、管理アドバイスを提供する。
RRGは,(1)資源制約下の画像データから関連情報を抽出する際の固有の複雑さ,(2)モデル生成と専門家による報告の相違を客観的に評価することの難しさ,の2つの主要な課題によって複雑化している。
これらの課題に対処するために、RRGタスク用の大言語モデルである$\mu^2$LLM, a $\underline{\textbf{mu}}$ltiscale $\underline{\textbf{mu}}$ltimodalを提案する。
中間層としての${\mu}^2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合し、GREEN-RedLlamaによってガイドされた直接選好最適化(DPO)を通じてレポート生成品質を向上させる。
4つの大きなCT画像レポート医療データセットによる実験結果から,提案手法は既存のアプローチよりも優れており,RRGタスクの限られたデータに対して,細調整した$\mu^2$LLMsの可能性が示された。
同時に、迅速なエンジニアリングを行うため、5段階のLCM駆動パイプラインを導入し、定期的なCTレポートをペア化されたビジュアルクエスト・アンサー・トリプルと引用リンク推論の物語に変換し、スケーラブルで高品質なマルチモーダルラジオロジー用コーパスを作成する。
すべてのコード、データセット、モデルは、私たちの公式リポジトリで公開されます。
https://github.com/Siyou-Li/u2Tokenizer
関連論文リスト
- A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Leveraging LLMs for Multimodal Retrieval-Augmented Radiology Report Generation via Key Phrase Extraction [0.0]
本稿では,多モーダル検索と大規模言語モデルを活用した検索拡張生成手法を提案する。
本手法は, LLMを用いて放射線学報告から重要なフレーズを抽出し, 本質的な診断情報に効果的に焦点をあてる。
我々は、MIMIC-CXRデータセットに対するアプローチを評価し、CheXbertメトリクスと競合するRadGraph F1メトリクスの最先端結果を得た。
論文 参考訳(メタデータ) (2025-04-10T03:14:01Z) - MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:00:52Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - LLM-RG4: Flexible and Factual Radiology Report Generation across Diverse Input Contexts [14.72366043711941]
現在の放射線学レポート生成モデルは、固定的なタスクパラダイムに制約されている。
本稿ではLLM-RG4という新しい大規模言語モデル(LLM)に基づくRRGフレームワークを提案する。
我々のモデルは入力非依存の幻覚を最小限に抑えているのに対し、現在のオープンソースモデルは一般的にこの問題に悩まされている。
論文 参考訳(メタデータ) (2024-12-16T17:29:51Z) - Semantic Consistency-Based Uncertainty Quantification for Factuality in Radiology Report Generation [20.173287130474797]
生成医療ビジョン大言語モデル(VLLM)は幻覚を起こしやすく、不正確な診断情報を生成できる。
報告レベルと文レベルの不確実性の両方を提供するセマンティック一貫性に基づく不確実性定量化フレームワークを新たに導入する。
提案手法は,MIMIC-CXRデータセット上のtexttRadialogモデルを用いて,20ドル分のレポートを拒否することで,事実性スコアを10ドル%改善する。
論文 参考訳(メタデータ) (2024-12-05T20:43:39Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。