論文の概要: Large Language Models for Multimodal Deformable Image Registration
- arxiv url: http://arxiv.org/abs/2408.10703v1
- Date: Tue, 20 Aug 2024 09:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:14:58.098757
- Title: Large Language Models for Multimodal Deformable Image Registration
- Title(参考訳): マルチモーダルな変形可能な画像登録のための大規模言語モデル
- Authors: Mingrui Ma, Weijie Wang, Jie Ning, Jianfeng He, Nicu Sebe, Bruno Lepri,
- Abstract要約: そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
- 参考スコア(独自算出の注目度): 50.91473745610945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of Multimodal Deformable Image Registration (MDIR) lies in the conversion and alignment of features between images of different modalities. Generative models (GMs) cannot retain the necessary information enough from the source modality to the target one, while non-GMs struggle to align features across these two modalities. In this paper, we propose a novel coarse-to-fine MDIR framework,LLM-Morph, which is applicable to various pre-trained Large Language Models (LLMs) to solve these concerns by aligning the deep features from different modal medical images. Specifically, we first utilize a CNN encoder to extract deep visual features from cross-modal image pairs, then we use the first adapter to adjust these tokens, and use LoRA in pre-trained LLMs to fine-tune their weights, both aimed at eliminating the domain gap between the pre-trained LLMs and the MDIR task. Third, for the alignment of tokens, we utilize other four adapters to transform the LLM-encoded tokens into multi-scale visual features, generating multi-scale deformation fields and facilitating the coarse-to-fine MDIR task. Extensive experiments in MR-CT Abdomen and SR-Reg Brain datasets demonstrate the effectiveness of our framework and the potential of pre-trained LLMs for MDIR task. Our code is availabel at: https://github.com/ninjannn/LLM-Morph.
- Abstract(参考訳): MDIR(Multimodal Deformable Image Registration)の課題は、異なるモダリティの画像間の特徴の変換とアライメントにある。
生成モデル(GM)は、ソースのモダリティからターゲットのモダリティまで十分な情報を保持できないが、非GMはこれらの2つのモダリティにまたがる特徴の整合に苦慮している。
本稿では,様々な学習済み大規模言語モデル (LLM) に適用可能なMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像対から深い視覚的特徴を抽出し、次に、最初のアダプタを用いてこれらのトークンを調整し、LoRAをトレーニング済みLLMに使用して、トレーニング済みLLMとMDIRタスクのドメインギャップを解消する。
第3に、トークンのアライメントのために、他の4つのアダプタを用いて、LLM符号化されたトークンをマルチスケールの視覚的特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
MR-CTアブドメンとSR-Reg Brainデータセットの大規模な実験は、MDIRタスクに対する我々のフレームワークの有効性と事前訓練されたLLMの可能性を示している。
私たちのコードは、https://github.com/ninjannn/LLM-Morph.comで利用可能です。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - ComNeck: Bridging Compressed Image Latents and Multimodal LLMs via Universal Transform-Neck [45.83457913639876]
本稿では,マルチモーダル大言語モデル(MLLM)を応用した下流視覚タスクのニーズに適合する圧縮画像潜在者を適応させる最初の研究について述べる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
我々のフレームワークには,トランスフォーメーションネックのトレーニングから下流MLLMを除いた印象的な機能と,ニューラルイメージも備えています。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling [14.563358764946498]
Masked Language and Image Modeling (MLIM) は2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。
モーダリティ間の相互作用を促進するため,モーダリティ・アウェア・マスキング(MAM)を提案する。
論文 参考訳(メタデータ) (2021-09-24T20:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。