論文の概要: Effectively Fine-tune to Improve Large Multimodal Models for Radiology
Report Generation
- arxiv url: http://arxiv.org/abs/2312.01504v1
- Date: Sun, 3 Dec 2023 20:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:09:39.112966
- Title: Effectively Fine-tune to Improve Large Multimodal Models for Radiology
Report Generation
- Title(参考訳): 放射線レポート生成のための大規模マルチモーダルモデルの改良
- Authors: Yuzhe Lu, Sungmin Hong, Yash Shah, Panpan Xu
- Abstract要約: 大規模言語モデル(LLM)は最近、印象的な機能を示しています。
ソフトな視覚的プロンプトとしてLLMのテキスト埋め込み空間に視覚的特徴を合わせるための,シンプルで効果的な2段階微調整プロトコルを提案する。
OpenLLaMA-7Bのフレームワークは、ドメイン固有の事前トレーニングを使わずに最先端のパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 8.788649244412591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing radiology reports from medical images requires a high level of domain
expertise. It is time-consuming even for trained radiologists and can be
error-prone for inexperienced radiologists. It would be appealing to automate
this task by leveraging generative AI, which has shown drastic progress in
vision and language understanding. In particular, Large Language Models (LLM)
have demonstrated impressive capabilities recently and continued to set new
state-of-the-art performance on almost all natural language tasks. While many
have proposed architectures to combine vision models with LLMs for multimodal
tasks, few have explored practical fine-tuning strategies. In this work, we
proposed a simple yet effective two-stage fine-tuning protocol to align visual
features to LLM's text embedding space as soft visual prompts. Our framework
with OpenLLaMA-7B achieved state-of-the-art level performance without
domain-specific pretraining. Moreover, we provide detailed analyses of soft
visual prompts and attention mechanisms, shedding light on future research
directions.
- Abstract(参考訳): 医療画像から放射線レポートを書くには、高いレベルのドメイン専門知識が必要です。
放射線科医の訓練にも時間がかかり、経験の浅い放射線科医のミスを起こしやすい。
視覚と言語理解の大幅な進歩を示す生成的AIを活用することで、このタスクを自動化することがアピールされる。
特に、最近の大規模言語モデル(llm)は印象的な能力を示しており、ほぼすべての自然言語タスクに新たな最先端のパフォーマンスを設定し続けている。
視覚モデルとLLMを組み合わせたマルチモーダルタスクのアーキテクチャを提案するものも少なくないが、実際的な微調整戦略を検討するものはほとんどない。
本研究では,視覚的特徴をソフトな視覚的プロンプトとしてLLMのテキスト埋め込み空間にアライメントするための,シンプルで効果的な2段階微調整プロトコルを提案する。
OpenLLaMA-7Bのフレームワークは、ドメイン固有の事前トレーニングなしで最先端のパフォーマンスを実現した。
さらに, ソフトビジュアルプロンプトと注意機構の詳細な解析を行い, 今後の研究の方向性に光を当てる。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability [42.75233695675096]
ViLaMは、大きな言語モデルに述語された命令チューニングを統合する統合されたビジョンランゲージトランスフォーマーモデルである。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、調整する。
医療分野におけるViLaMの今後の応用の可能性を示すものとして,このモデルの目覚ましいゼロショット学習能力を見てきた。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - ImpressionGPT: An Iterative Optimizing Framework for Radiology Report
Summarization with ChatGPT [43.58079272453359]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。