論文の概要: CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging
- arxiv url: http://arxiv.org/abs/2604.22989v1
- Date: Fri, 24 Apr 2026 20:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.085655
- Title: CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging
- Title(参考訳): CheXmix: 医用画像における視覚言語モデルのための統合生成準備
- Authors: Ashwin Kumar, Robbie Holland, Corey Barrett, Jangwon Kim, Maya Varma, Zhihong Chen, Yunhe Gao, Greg Zaharchuk, Tara Taghavi, Krishnaram Kenthapadi, Akshay Chaudhari,
- Abstract要約: 胸部X線量と放射線検査を併用した胸部X線量で訓練した初期核融合モデルであるCheXmixについて報告する。
マスク付きオートエンコーダの表現強度をMLLMと組み合わせた2段階のマルチモーダル生成事前学習戦略を提案する。
提案手法は,全マスキング比において確立された生成モデルより優れ,高画像マスキング比のAUROCではCheXagentを8.6%上回っている。
- 参考スコア(独自算出の注目度): 28.105551178104236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent medical multimodal foundation models are built as multimodal LLMs (MLLMs) by connecting a CLIP-pretrained vision encoder to an LLM using LLaVA-style finetuning. This two-stage, decoupled approach introduces a projection layer that can distort visual features. This is especially concerning in medical imaging where subtle cues are essential for accurate diagnoses. In contrast, early-fusion generative approaches such as Chameleon eliminate the projection bottleneck by processing image and text tokens within a single unified sequence, enabling joint representation learning that leverages the inductive priors of language models. We present CheXmix, a unified early-fusion generative model trained on a large corpus of chest X-rays paired with radiology reports. We expand on Chameleon's autoregressive framework by introducing a two-stage multimodal generative pretraining strategy that combines the representational strengths of masked autoencoders with MLLMs. The resulting models are highly flexible, supporting both discriminative and generative tasks at both coarse and fine-grained scales. Our approach outperforms well-established generative models across all masking ratios by 6.0% and surpasses CheXagent by 8.6% on AUROC at high image masking ratios on the CheXpert classification task. We further inpaint images over 51.0% better than text-only generative models and outperform CheXagent by 45% on the GREEN metric for radiology report generation. These results demonstrate that CheXmix captures fine-grained information across a broad spectrum of chest X-ray tasks. Our code is at: https://github.com/StanfordMIMI/CheXmix.
- Abstract(参考訳): 近年の医療用マルチモーダルファウンデーションモデルは、LLaVAスタイルのファインタニングを用いて、CLIP-pretrained vision encoderをLLMに接続することにより、MLLM(Multimodal LLM)として構築されている。
この2段階の分離されたアプローチは、視覚的特徴を歪ませるプロジェクション層を導入している。
これは特に、微妙な手がかりが正確な診断に不可欠である医療画像に関係している。
対照的に、Chameleonのような早期融合生成アプローチは、単一の統一シーケンス内で画像とテキストトークンを処理することで、プロジェクションボトルネックを排除し、言語モデルの帰納的先行性を活用する共同表現学習を可能にする。
胸部X線量と放射線検査を併用した胸部X線量で訓練した初期核融合モデルであるCheXmixについて報告する。
マスク付きオートエンコーダとMLLMの表現強度を組み合わせた2段階のマルチモーダル生成事前学習戦略を導入することで,Chameleonの自己回帰フレームワークを拡張した。
得られたモデルは非常に柔軟で、識別的タスクと生成的タスクの両方を粗いスケールときめ細かいスケールでサポートする。
提案手法は,CheXpert分類タスクの高画像マスキング比において,CheXagentの6.0%,AUROCの8.6%を上回った。
また,CheXagentよりも51.0%以上の画像が塗布され,GREEN測定値の45%がCheXagentより優れていた。
これらの結果は、CheXmixが胸部X線タスクの幅広い範囲にわたってきめ細かい情報を捕捉していることを示している。
私たちのコードは、https://github.com/StanfordMIMI/CheXmix.comです。
関連論文リスト
- Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation [98.93314262366681]
胸部X線理解・生成のための次世代統合医療基盤モデルUniXについて述べる。
UniXは2つのタスクを、理解のための自己回帰分岐と高忠実度生成のための拡散分岐に分離する。
2つの代表的なベンチマークでは、Unixは46.1%の性能向上と24.2%の世代品質向上を実現している。
論文 参考訳(メタデータ) (2026-01-16T18:59:58Z) - EMRRG: Efficient Fine-Tuning Pre-trained X-ray Mamba Networks for Radiology Report Generation [16.23892817333913]
EMRRGは、トレーニング済みのMambaネットワークを微調整する新しいX線レポート生成フレームワークである。
ハイブリッドデコーダを備えたLCMは、医療レポートを生成し、エンドツーエンドのトレーニングを可能にし、ベンチマークデータセット上で強力な結果を得ることができる。
論文 参考訳(メタデータ) (2025-10-19T09:54:36Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - MultiFusionNet: Multilayer Multimodal Fusion of Deep Neural Networks for
Chest X-Ray Image Classification [16.479941416339265]
畳み込みニューラルネットワーク(CNN)を用いた自動システムは胸部X線画像分類の精度と効率を向上させることを約束している。
本稿では,異なる層から特徴を抽出し,それらを融合させる深層学習に基づく多層核融合モデルを提案する。
提案モデルでは,3クラス分類と2クラス分類の両方において,97.21%,99.60%の精度を実現している。
論文 参考訳(メタデータ) (2024-01-01T11:50:01Z) - MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。
胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision [39.07263052525579]
我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
論文 参考訳(メタデータ) (2020-07-10T20:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。