Fugu-MT 論文翻訳(概要): LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation

論文の概要: LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation

arxiv url: http://arxiv.org/abs/2305.11490v4
Date: Tue, 17 Oct 2023 12:16:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 11:17:36.749051
Title: LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation
Title（参考訳）: LLM-CXR:CXR画像理解・生成のための命令型LCM
Authors: Suhyeon Lee, Won Jun Kim, Jinho Chang, Jong Chul Ye
Abstract要約: LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
参考スコア（独自算出の注目度）: 55.8100879705114
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Following the impressive development of LLMs, vision-language alignment in LLMs is actively being researched to enable multimodal reasoning and visual IO. This direction of research is particularly relevant to medical imaging because medical image analysis and generation consist of reasoning based on a combination of visual features and prior knowledge. Many recent works have focused on training adapter networks that serve as an information bridge between image processing networks and LLMs; but presumably, in order to achieve maximum reasoning potential of LLMs on visual information as well, visual and language features should be allowed to interact more freely. This is especially important in the medical domain because understanding and generating medical images such as chest X-rays (CXR) require not only accurate visual and language-based reasoning but also a more intimate mapping between the two modalities. Thus, taking inspiration from previous work on the transformer and VQ-GAN combination for bidirectional image and text generation, we build upon this approach and develop a method for instruction-tuning an LLM pre-trained only on text to gain vision-language capabilities for medical images. Specifically, we leverage a pretrained LLM's existing question-answering and instruction-following abilities to teach it to understand visual inputs by instructing it to answer questions about image inputs and, symmetrically, output both text and image responses appropriate to a given query by tuning the LLM with diverse tasks that encompass image-based text-generation and text-based image-generation. We show that our model, LLM-CXR, trained in this approach shows better image-text alignment in both CXR understanding and generation tasks while being smaller in size compared to previously developed models that perform a narrower range of tasks. The code is at https://github.com/hyn2028/llm-cxr.
Abstract（参考訳）: LLMの印象的な発展に続いて、マルチモーダル推論と視覚IOを可能にするために、LLMの視覚言語アライメントが活発に研究されている。この研究の方向性は、医用画像分析と生成が視覚特徴と事前知識の組み合わせに基づく推論で構成されているため、特に医用画像に関係している。近年の多くの研究は、画像処理ネットワークとllm間の情報ブリッジとして機能するアダプタネットワークの訓練に焦点を当てているが、おそらくは、視覚情報に対するllmの最大推論能力を達成するために、視覚機能と言語機能はより自由に相互作用できるべきである。これは、胸部X線(CXR)などの医用画像の理解と生成が、正確な視覚的および言語に基づく推論だけでなく、2つのモダリティ間のより親密なマッピングを必要とするため、医療領域において特に重要である。そこで本稿では, 双方向画像とテキスト生成のためのトランスフォーマとVQ-GANの組み合わせに関する以前の研究から着想を得て, テキストのみに事前学習したLLMを指導し, 医用画像の視覚言語能力を得る手法を開発した。具体的には、事前学習されたLLMの既存の質問回答と指示追従能力を利用して、画像入力に関する質問に答えるよう指示し、左右対称に、画像ベースのテキスト生成とテキストベースの画像生成を含む多様なタスクでLLMをチューニングすることにより、所定のクエリに適したテキストと画像応答を出力する。提案手法で学習したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示すとともに,より狭い範囲のタスクを実行する従来開発されたモデルよりも小型であることを示す。コードはhttps://github.com/hyn2028/llm-cxr。

関連論文リスト

MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文参考訳（メタデータ） (2023-12-04T06:40:12Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文参考訳（メタデータ） (2023-06-30T17:59:07Z)
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。本研究は,LLMが画像の理解も可能かどうかを考察する。
論文参考訳（メタデータ） (2023-06-09T17:57:01Z)
Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-12T10:08:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。