論文の概要: Exploring the Design Space of 3D MLLMs for CT Report Generation
- arxiv url: http://arxiv.org/abs/2506.21535v1
- Date: Thu, 26 Jun 2025 17:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.23474
- Title: Exploring the Design Space of 3D MLLMs for CT Report Generation
- Title(参考訳): CTレポート生成のための3次元MLLMの設計空間の探索
- Authors: Mohammed Baharoon, Jun Ma, Congyu Fang, Augustin Toma, Bo Wang,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は,放射線学報告生成 (RRG) を自動化するための有望な方法として登場した。
本研究では,視覚的入力表現,プロジェクタ,Large Language Models (LLM) および3次元CTレポート生成のための微調整技術を含む3次元MLLMの設計空間について検討する。
我々は,GREENスコアのパフォーマンスを最大10%向上させ,MICCAI 2024 AMOS-MMチャレンジで2位となる2つの知識に基づくレポート向上手法を提案する。
- 参考スコア(独自算出の注目度): 5.874408439960383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have emerged as a promising way to automate Radiology Report Generation (RRG). In this work, we systematically investigate the design space of 3D MLLMs, including visual input representation, projectors, Large Language Models (LLMs), and fine-tuning techniques for 3D CT report generation. We also introduce two knowledge-based report augmentation methods that improve performance on the GREEN score by up to 10\%, achieving the 2nd place on the MICCAI 2024 AMOS-MM challenge. Our results on the 1,687 cases from the AMOS-MM dataset show that RRG is largely independent of the size of LLM under the same training protocol. We also show that larger volume size does not always improve performance if the original ViT was pre-trained on a smaller volume size. Lastly, we show that using a segmentation mask along with the CT volume improves performance. The code is publicly available at https://github.com/bowang-lab/AMOS-MM-Solution
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は放射線学報告生成 (RRG) を自動化するための有望な方法として登場した。
本研究では,視覚入力表現,プロジェクタ,大言語モデル(LLM),3次元CTレポート生成のための微調整技術を含む3次元MLLMの設計空間を体系的に検討する。
また、GREENスコアのパフォーマンスを最大10倍に向上させる2つの知識ベースレポート向上手法を導入し、MICCAI 2024 AMOS-MMチャレンジで2位を獲得した。
AMOS-MMデータセットから得られた1,687件の結果から,RRGは同一のトレーニングプロトコル下でのLLMの大きさに大きく依存していることが明らかとなった。
また,元のViTがより小さいボリュームサイズで事前学習された場合,ボリュームサイズが大きくなると必ずしも性能が向上しないことを示した。
最後に,CTボリュームとともにセグメンテーションマスクを用いることで,性能が向上することを示す。
コードはhttps://github.com/bowang-lab/AMOS-MM-Solutionで公開されている。
関連論文リスト
- Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。
近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。
効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文 参考訳(メタデータ) (2025-03-26T08:44:11Z) - LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer [110.39467860530819]
視覚変換器 (ViT) は視覚符号化のための多モード大言語モデル (MLLM) に広く用いられている。
我々は、よく設計された視覚言語プロジェクタを導入することで、高度な知覚能力を持つMLLMであるLLaVA-UHD v2を提案する。
ハイウィン変換器は、構築した高精細なセマンティックピラミッドを組み込むことにより、MLLMの多様なマルチモーダルな視覚的粒度を捕捉する能力を高める。
論文 参考訳(メタデータ) (2024-12-18T14:07:46Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - R2GenGPT: Radiology Report Generation with Frozen LLMs [47.72270349660438]
R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
論文 参考訳(メタデータ) (2023-09-18T14:35:35Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。