論文の概要: LLaMA-Reg: Using LLaMA 2 for Unsupervised Medical Image Registration
- arxiv url: http://arxiv.org/abs/2405.18774v1
- Date: Wed, 29 May 2024 05:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:48:25.153802
- Title: LLaMA-Reg: Using LLaMA 2 for Unsupervised Medical Image Registration
- Title(参考訳): LLaMA-Reg : LLaMA 2による医用画像の無監督登録
- Authors: Mingrui Ma, Yu Yang,
- Abstract要約: 本稿では,事前訓練された大言語モデルを用いた医用画像登録手法を提案する。
事前訓練された大言語モデルを用いて、医用画像の深い特徴を登録モデルにエンコードすることで、画像登録精度を効果的に向上できることがわかった。
- 参考スコア(独自算出の注目度): 4.145785237721578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image registration is an essential topic in medical image analysis. In this paper, we propose a method for medical image registration using a pretrained large language model. We find that using the pretrained large language model to encode deep features of the medical images in the registration model can effectively improve image registration accuracy, indicating the great potential of the large language model in medical image registration tasks. We use dual encoders to perform deep feature extraction on image pairs and then input the features into the pretrained large language model. To adapt the large language model to our registration task, the weights of the large language model are frozen in the registration model, and an adapter is utilized to fine-tune the large language model, which aims at (a) mapping the visual tokens to the language space before the large language model computing, (b) project the modeled language tokens output from the large language model to the visual space. Our method combines output features from the fine-tuned large language model with the features output from each encoder layer to gradually generate the deformation fields required for registration in the decoder. To demonstrate the effectiveness of the large prediction model in registration tasks, we conducted experiments on knee and brain MRI and achieved state-of-the-art results.
- Abstract(参考訳): 医用画像登録は, 医用画像解析において重要な課題である。
本稿では,事前訓練された大言語モデルを用いた医用画像登録手法を提案する。
事前訓練された大言語モデルを用いて、医用画像の深い特徴を登録モデルにエンコードすることで、医用画像登録タスクにおける大言語モデルの可能性を示す画像登録精度を効果的に向上させることができる。
デュアルエンコーダを用いて、画像ペアの深い特徴抽出を行い、事前訓練された大言語モデルに特徴を入力します。
登録タスクに大規模な言語モデルを適応させるためには、登録モデルにおいて大きな言語モデルの重みを凍結し、大きな言語モデルを微調整するためにアダプタを利用する。
(a)大きな言語モデルコンピューティングの前に、視覚トークンを言語空間にマッピングする。
b) 大規模言語モデルから視覚空間へ出力されるモデル化された言語トークンを計画する。
提案手法は,微調整された大言語モデルから出力する特徴と,各エンコーダ層から出力する特徴とを組み合わせて,デコーダの登録に必要な変形場を徐々に生成する。
登録作業における大きな予測モデルの有効性を実証するため, 膝・脳MRI実験を行い, 最先端の結果を得た。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical
Images and Texts [13.100459580864314]
電子カルテにおける画像スキャンとテキスト記述に基づくコンピュータ支援診断(CAD)のための視覚言語事前学習モデルを開発した。
目的を達成するために,軽量CADシステムMedBLIPを提案する。
5つの公的アルツハイマー病(AD)データセットから3万枚以上の画像データを収集します。
論文 参考訳(メタデータ) (2023-05-18T08:19:33Z) - A Meta-Learning Approach for Medical Image Registration [6.518615946009265]
グラデーションベースのメタラーニングフレームワークと統合した,新しい教師なし登録モデルを提案する。
実験の結果,提案モデルでは,精度とトレーニング時間の観点から,性能が有意に向上した。
論文 参考訳(メタデータ) (2021-04-21T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。