Fugu-MT 論文翻訳(概要): HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

論文の概要: HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

arxiv url: http://arxiv.org/abs/2502.09838v3
Date: Fri, 21 Feb 2025 17:39:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 15:11:45.097791
Title: HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
Title（参考訳）: HealthGPT:異種知識適応による理解と生成の統一のための医用大視野モデル
Authors: Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi,
Abstract要約: HealthGPTは医療用大規模視線モデル(Med-LVLM)である医療的な視覚的理解と生成能力を統合された自己回帰パラダイムに統合する。
参考スコア（独自算出の注目度）: 68.4316501012718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.
Abstract（参考訳）: 本稿では,医学的な視覚的理解と生成機能を統合された自己回帰パラダイムに組み込んだ,強力な医用大規模視覚言語モデル(Med-LVLM)であるHealthGPTを提案する。我々のブートストラッピング哲学は、不均一な理解と生成知識を事前学習された大規模言語モデル(LLM)に段階的に適応させることである。これは、階層型視覚認識アプローチと3段階学習戦略を補完する、新しいヘテロジニアス低ランク適応(H-LoRA)技術によって実現される。そこで我々は、HealthGPTを効果的に学習するために、VL-Healthと呼ばれる包括的医療領域固有の理解と生成データセットを考案した。医療視覚統合作業におけるHealthGPTの性能と拡張性について実験的に検証した。私たちのプロジェクトはhttps://github.com/DCDmllm/HealthGPTでアクセスできます。

関連論文リスト

MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文参考訳（メタデータ） (2025-06-21T08:56:45Z)
BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像の正確かつ汎用的な分類のための新しいプロンプト学習フレームワークを提案する。提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。 9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文参考訳（メタデータ） (2024-11-21T19:13:04Z)
Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文参考訳（メタデータ） (2024-07-13T22:45:46Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。 ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文参考訳（メタデータ） (2023-12-07T01:01:45Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文参考訳（メタデータ） (2022-09-30T15:06:13Z)
Self-supervised Multi-modal Training from Uncurated Image and Reports Enables Zero-shot Oversight Artificial Intelligence in Radiology [31.045221580446963]
医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
論文参考訳（メタデータ） (2022-08-10T04:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。