論文の概要: LiteGPT: Large Vision-Language Model for Joint Chest X-ray Localization and Classification Task
- arxiv url: http://arxiv.org/abs/2407.12064v1
- Date: Tue, 16 Jul 2024 02:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:28:12.159977
- Title: LiteGPT: Large Vision-Language Model for Joint Chest X-ray Localization and Classification Task
- Title(参考訳): LiteGPT: 胸部X線像の局所化と分類作業のための大規模視覚言語モデル
- Authors: Khai Le-Duc, Ryan Zhang, Ngoc Son Nguyen, Tan-Hanh Pham, Anh Dao, Ba Hung Ngo, Anh Totti Nguyen, Truong-Son Hy,
- Abstract要約: 医用イメージングのための統合フレームワーク LiteGPT を提案する。
複数の事前学習されたビジュアルエンコーダを利用して情報を強化し、視覚言語モデルの性能を向上させる。
本研究は,医用画像における共同局所化と分類の新たな課題に視覚言語モデルを用いた最初の研究である。
- 参考スコア(独自算出の注目度): 1.8837885864562305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have been extensively explored across a wide range of tasks, achieving satisfactory performance; however, their application in medical imaging remains underexplored. In this work, we propose a unified framework - LiteGPT - for the medical imaging. We leverage multiple pre-trained visual encoders to enrich information and enhance the performance of vision-language models. To the best of our knowledge, this is the first study to utilize vision-language models for the novel task of joint localization and classification in medical images. Besides, we are pioneers in providing baselines for disease localization in chest X-rays. Finally, we set new state-of-the-art performance in the image classification task on the well-benchmarked VinDr-CXR dataset. All code and models are publicly available online: https://github.com/leduckhai/LiteGPT
- Abstract(参考訳): 視覚言語モデルは幅広いタスクにわたって広範囲に探索され、良好な性能を保っているが、医療画像への応用は未解明のままである。
本研究では,医用画像用統合フレームワークLiteGPTを提案する。
複数の事前学習されたビジュアルエンコーダを利用して情報を強化し、視覚言語モデルの性能を向上させる。
我々の知る限りでは、医用画像における共同局所化と分類の新たな課題に視覚言語モデルを利用した最初の研究である。
また, 胸部X線における疾患局在の基準線を提供する先駆者でもある。
最後に、よくベンチマークされたVinDr-CXRデータセット上で、画像分類タスクに新しい最先端性能を設定した。
すべてのコードとモデルはオンラインで公開されている。
関連論文リスト
- Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。
我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。
Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文 参考訳(メタデータ) (2025-02-14T05:36:32Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIPP) は、大規模な事前訓練を通じてゼロショット分類を可能にするソリューションを提供する。
ビジュアルマーカーはAUROC2013$を0.185まで改善し、分類性能を向上させる効果を強調した。
我々はコードと前処理パイプラインを公開し、医用画像の局所分類に関する今後の研究の基準点を提供する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。
胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。