Fugu-MT 論文翻訳(概要): LLM Itself Can Read and Generate CXR Images

論文の概要: LLM Itself Can Read and Generate CXR Images

arxiv url: http://arxiv.org/abs/2305.11490v2
Date: Wed, 24 May 2023 04:27:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 00:46:24.472151
Title: LLM Itself Can Read and Generate CXR Images
Title（参考訳）: LLM、CXR画像の読み書きが可能に
Authors: Suhyeon Lee, Won Jun Kim, Jong Chul Ye
Abstract要約: 本研究では,事前学習したLLMを微調整し,構造変化を伴わずにテキストなどの画像を読み出し生成する手法を提案する。本稿では,視覚領域と言語領域の複雑な情報の翻訳が重要である領域として,X線画像とレポート生成タスクを胸部に適用する。
参考スコア（独自算出の注目度）: 45.76299686104646
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Building on the recent remarkable development of large language models (LLMs), active attempts are being made to extend the utility of LLMs to multimodal tasks. There have been previous efforts to link language and visual information, and attempts to add visual capabilities to LLMs are ongoing as well. However, existing attempts use LLMs only as image decoders and no attempt has been made to generate images in the same line as the natural language. By adopting a VQ-GAN framework in which latent representations of images are treated as a kind of text tokens, we present a novel method to fine-tune a pre-trained LLM to read and generate images like text without any structural changes, extra training objectives, or the need for training an ad-hoc network while still preserving the of the instruction-following capability of the LLM. We apply this framework to chest X-ray (CXR) image and report generation tasks as it is a domain in which translation of complex information between visual and language domains is important. The code is available at https://github.com/hyn2028/llm-cxr.
Abstract（参考訳）: 近年の大規模言語モデル(LLM)の顕著な発展を基盤として,LLMの実用性をマルチモーダルタスクに拡張する試みが活発に行われている。これまでも言語と視覚情報を結びつける努力が続けられており、LLMに視覚機能を追加する試みも進行中である。しかし、既存の試みは画像デコーダとしてのみllmを使用し、自然言語と同じ行で画像を生成する試みは行われていない。画像の潜在表現をテキストトークンの一種として扱うvq-ganフレームワークを採用することにより,事前学習されたllmを微調整し,構造的な変更や追加のトレーニング目標,アドホックネットワークのトレーニングの必要性をなくし,llmの命令追従能力を維持しつつ,テキストなどの画像の読み書きを行う新しい手法を提案する。このフレームワークを胸部x線(cxr)画像とレポート生成タスクに適用し,視覚領域と言語領域間の複雑な情報の変換が重要となる領域であることを示す。コードはhttps://github.com/hyn2028/llm-cxrで入手できる。

関連論文リスト

MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文参考訳（メタデータ） (2023-12-04T06:40:12Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文参考訳（メタデータ） (2023-06-30T17:59:07Z)
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。本研究は,LLMが画像の理解も可能かどうかを考察する。
論文参考訳（メタデータ） (2023-06-09T17:57:01Z)
Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters [16.44174900423759]
我々は,事前学習された視覚言語モデルで学習した視覚的およびテキスト的知識を活用するために,新しいプラグイン・アンド・プレイ・モジュールであるX-adapterを提案する。提案手法は,オブジェクト指向推論および自然言語理解タスクの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-05-12T10:08:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。