論文の概要: Visual Instruction-Finetuned Language Model for Versatile Brain MR Image Tasks
- arxiv url: http://arxiv.org/abs/2604.02748v1
- Date: Fri, 03 Apr 2026 05:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.335737
- Title: Visual Instruction-Finetuned Language Model for Versatile Brain MR Image Tasks
- Title(参考訳): 可視性脳MR画像タスクのための視覚的命令型言語モデル
- Authors: Jonghun Kim, Sinyoung Ra, Hyunjin Park,
- Abstract要約: LLaBIT(Large Language Model for Brain Image Translation)は、LLMの視覚的推論を脳MRI領域における臨床的に意味のあるタスクに拡張する。
本手法は4つの異なるタスクにわたる5つの脳MRIデータセットで評価する。
我々のモデルは、全てのタスクに対して優れた性能を示すだけでなく、直接比較において、専門的なタスク特化モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 1.4770902450080214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs have demonstrated remarkable capabilities in linguistic reasoning and are increasingly adept at vision-language tasks. The integration of image tokens into transformers has enabled direct visual input and output, advancing research from image-to-text descriptions to text-to-image generation. However, simple text-to-image generation holds limited clinical utility. In medical imaging, tasks such as image segmentation for localizing pathologies or image translation for reconstructing missing sequences have much greater clinical importance. Despite this, integrating these diverse, clinically relevant tasks within a single, versatile language model remains unexplored. Our method, LLaBIT (Large Language Model for Brain Image Translation), extends the visual reasoning of LLMs to these clinically meaningful tasks in the brain MRI domain. To mitigate the spatial information loss inherent in image tokenization, we incorporate a mechanism to reuse feature maps from the image encoder, minimizing data degradation. We also generate text data using LLMs with strict predefined instructions to augment limited image-text paired data in brain MRI. We comprehensively evaluated our method on five brain MRI datasets across four distinct tasks: report generation, visual question answering, image segmentation, and image translation. Our model not only demonstrated superior performance across all tasks but also outperformed specialized, task-specific models in direct comparisons, highlighting its efficacy and versatility
- Abstract(参考訳): LLMは言語推論において顕著な能力を示しており、視覚言語タスクに適応している。
画像トークンを変換器に統合することで、直接視覚的な入力と出力が可能になり、画像からテキストへの記述からテキストから画像への生成まで研究が進められている。
しかし、単純なテキスト・ツー・イメージ生成は限られた臨床的有用性を持っている。
医用画像では、病理組織を局在させるイメージセグメンテーションや、欠失配列を再構成する画像翻訳といったタスクが臨床的に重要である。
それにもかかわらず、これらの多様で臨床的に関係のあるタスクを単一の多言語言語モデルに統合することは、まだ探索されていない。
脳画像翻訳のためのLLaBIT (Large Language Model for Brain Image Translation) は,脳MRI領域におけるこれらの臨床的に意味のあるタスクにLLMの視覚的推論を拡張する。
画像トークン化に固有の空間情報損失を軽減するため,画像エンコーダから特徴マップを再利用する機構を導入し,データの劣化を最小限に抑える。
脳MRIにおける限られた画像とテキストのペアデータを増やすために、厳密な事前定義された命令を持つLSMを用いてテキストデータを生成する。
我々は4つのタスク(レポート生成、視覚的質問応答、画像分割、画像翻訳)にまたがる5つの脳MRIデータセットの手法を総合的に評価した。
我々のモデルは、全てのタスクに対して優れたパフォーマンスを示すだけでなく、直接比較においてタスク固有のモデルよりも優れており、その有効性と汎用性を強調している。
関連論文リスト
- MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。