論文の概要: LLM Itself Can Read and Generate CXR Images
- arxiv url: http://arxiv.org/abs/2305.11490v1
- Date: Fri, 19 May 2023 07:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:45:30.158082
- Title: LLM Itself Can Read and Generate CXR Images
- Title(参考訳): LLM、CXR画像の読み書きが可能に
- Authors: Suhyeon Lee, Won Jun Kim, Jong Chul Ye
- Abstract要約: 本稿では,事前学習した大規模言語モデルを微調整し,テキストなどの画像を読み書きする手法を提案する。
本稿では,視覚領域と言語領域の複雑な情報の翻訳が重要である領域として,X線画像とレポート生成タスクを胸部に適用する。
- 参考スコア(独自算出の注目度): 45.76299686104646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building on the recent remarkable development of large language models
(LLMs), active attempts are being made to extend the utility of LLMs to
multimodal tasks. There have been previous efforts to link language and visual
information, and attempts to add visual capabilities to LLMs are ongoing as
well. However, existing attempts use LLMs only as image decoders and no attempt
has been made to generate images in the same line as the natural language. By
adopting a VQ-GAN framework in which latent representations of images are
treated as a kind of text tokens, we present a novel method to fine-tune a
pre-trained LLM to read and generate images like text without any structural
changes, extra training objectives, or the need for training an ad-hoc network
while still preserving the of the instruction-following capability of the LLM.
We apply this framework to chest X-ray (CXR) image and report generation tasks
as it is a domain in which translation of complex information between visual
and language domains is important. The code will soon be made publicly
available.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の顕著な発展を基盤として,LLMの実用性をマルチモーダルタスクに拡張する試みが活発に行われている。
これまでも言語と視覚情報を結びつける努力が続けられており、LLMに視覚機能を追加する試みも進行中である。
しかし、既存の試みは画像デコーダとしてのみllmを使用し、自然言語と同じ行で画像を生成する試みは行われていない。
画像の潜在表現をテキストトークンの一種として扱うvq-ganフレームワークを採用することにより,事前学習されたllmを微調整し,構造的な変更や追加のトレーニング目標,アドホックネットワークのトレーニングの必要性をなくし,llmの命令追従能力を維持しつつ,テキストなどの画像の読み書きを行う新しい手法を提案する。
このフレームワークを胸部x線(cxr)画像とレポート生成タスクに適用し,視覚領域と言語領域間の複雑な情報の変換が重要となる領域であることを示す。
コードは間もなく公開される予定だ。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。
胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Towards Versatile and Efficient Visual Knowledge Integration into
Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。
提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-12T10:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。