論文の概要: LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and
Generation
- arxiv url: http://arxiv.org/abs/2305.11490v4
- Date: Tue, 17 Oct 2023 12:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 11:17:36.749051
- Title: LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and
Generation
- Title(参考訳): LLM-CXR:CXR画像理解・生成のための命令型LCM
- Authors: Suhyeon Lee, Won Jun Kim, Jinho Chang, Jong Chul Ye
- Abstract要約: LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
- 参考スコア(独自算出の注目度): 55.8100879705114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Following the impressive development of LLMs, vision-language alignment in
LLMs is actively being researched to enable multimodal reasoning and visual IO.
This direction of research is particularly relevant to medical imaging because
medical image analysis and generation consist of reasoning based on a
combination of visual features and prior knowledge. Many recent works have
focused on training adapter networks that serve as an information bridge
between image processing networks and LLMs; but presumably, in order to achieve
maximum reasoning potential of LLMs on visual information as well, visual and
language features should be allowed to interact more freely. This is especially
important in the medical domain because understanding and generating medical
images such as chest X-rays (CXR) require not only accurate visual and
language-based reasoning but also a more intimate mapping between the two
modalities. Thus, taking inspiration from previous work on the transformer and
VQ-GAN combination for bidirectional image and text generation, we build upon
this approach and develop a method for instruction-tuning an LLM pre-trained
only on text to gain vision-language capabilities for medical images.
Specifically, we leverage a pretrained LLM's existing question-answering and
instruction-following abilities to teach it to understand visual inputs by
instructing it to answer questions about image inputs and, symmetrically,
output both text and image responses appropriate to a given query by tuning the
LLM with diverse tasks that encompass image-based text-generation and
text-based image-generation. We show that our model, LLM-CXR, trained in this
approach shows better image-text alignment in both CXR understanding and
generation tasks while being smaller in size compared to previously developed
models that perform a narrower range of tasks. The code is at
https://github.com/hyn2028/llm-cxr.
- Abstract(参考訳): LLMの印象的な発展に続いて、マルチモーダル推論と視覚IOを可能にするために、LLMの視覚言語アライメントが活発に研究されている。
この研究の方向性は、医用画像分析と生成が視覚特徴と事前知識の組み合わせに基づく推論で構成されているため、特に医用画像に関係している。
近年の多くの研究は、画像処理ネットワークとllm間の情報ブリッジとして機能するアダプタネットワークの訓練に焦点を当てているが、おそらくは、視覚情報に対するllmの最大推論能力を達成するために、視覚機能と言語機能はより自由に相互作用できるべきである。
これは、胸部X線(CXR)などの医用画像の理解と生成が、正確な視覚的および言語に基づく推論だけでなく、2つのモダリティ間のより親密なマッピングを必要とするため、医療領域において特に重要である。
そこで本稿では, 双方向画像とテキスト生成のためのトランスフォーマとVQ-GANの組み合わせに関する以前の研究から着想を得て, テキストのみに事前学習したLLMを指導し, 医用画像の視覚言語能力を得る手法を開発した。
具体的には、事前学習されたLLMの既存の質問回答と指示追従能力を利用して、画像入力に関する質問に答えるよう指示し、左右対称に、画像ベースのテキスト生成とテキストベースの画像生成を含む多様なタスクでLLMをチューニングすることにより、所定のクエリに適したテキストと画像応答を出力する。
提案手法で学習したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示すとともに,より狭い範囲のタスクを実行する従来開発されたモデルよりも小型であることを示す。
コードはhttps://github.com/hyn2028/llm-cxr。
関連論文リスト
- Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Frozen Transformers in Language Models Are Effective Visual Encoder
Layers [29.232880257433898]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。