Fugu-MT 論文翻訳(概要): RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models

論文の概要: RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.03987v1
Date: Thu, 06 Mar 2025 00:19:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.627764
Title: RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models
Title（参考訳）: 網膜GPT
Authors: Wenhui Zhu, Xin Li, Xiwen Chen, Peijie Qiu, Vamsi Krishna Vasa, Xuanzhao Dong, Yanxi Chen, Natasha Lepore, Oana Dumitrascu, Yi Su, Yalin Wang,
Abstract要約: 臨床的に好ましい網膜画像の定量的解析のための多モード対話アシスタントであるtextitRetinalGPT を紹介する。特に網膜GPTは、網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。
参考スコア（独自算出の注目度）: 17.579521693647383
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, Multimodal Large Language Models (MLLMs) have gained significant attention for their remarkable ability to process and analyze non-textual data, such as images, videos, and audio. Notably, several adaptations of general-domain MLLMs to the medical field have been explored, including LLaVA-Med. However, these medical adaptations remain insufficiently advanced in understanding and interpreting retinal images. In contrast, medical experts emphasize the importance of quantitative analyses for disease detection and interpretation. This underscores a gap between general-domain and medical-domain MLLMs: while general-domain MLLMs excel in broad applications, they lack the specialized knowledge necessary for precise diagnostic and interpretative tasks in the medical field. To address these challenges, we introduce \textit{RetinalGPT}, a multimodal conversational assistant for clinically preferred quantitative analysis of retinal images. Specifically, we achieve this by compiling a large retinal image dataset, developing a novel data pipeline, and employing customized visual instruction tuning to enhance both retinal analysis and enrich medical knowledge. In particular, RetinalGPT outperforms MLLM in the generic domain by a large margin in the diagnosis of retinal diseases in 8 benchmark retinal datasets. Beyond disease diagnosis, RetinalGPT features quantitative analyses and lesion localization, representing a pioneering step in leveraging LLMs for an interpretable and end-to-end clinical research framework. The code is available at https://github.com/Retinal-Research/RetinalGPT
Abstract（参考訳）: 近年、MLLM(Multimodal Large Language Models)は、画像、ビデオ、オーディオなどの非テキストデータの処理と分析に際し、注目されている。特に、LLaVA-Medなど、一般ドメインMLLMの医療分野への適応がいくつか検討されている。しかし、これらの医学的適応は網膜画像の理解と解釈に不十分なままである。対照的に、医学専門家は、疾患の検出と解釈のための定量的分析の重要性を強調している。このことは、一般ドメインと医療ドメインのMLLM間のギャップを浮き彫りにしている: 一般ドメインのMLLMは幅広い用途で優れているが、医療分野における正確な診断と解釈に必要な専門知識は欠如している。これらの課題に対処するために,網膜画像の定量的解析のための多モード対話アシスタントであるtextit{RetinalGPT}を紹介する。具体的には、大きな網膜画像データセットをコンパイルし、新しいデータパイプラインを開発し、網膜分析と医用知識の充実を両立させるためにカスタマイズされたビジュアルインストラクションチューニングを利用する。特に、RetinalGPTは8つのベンチマーク網膜データセットにおける網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。疾患診断の他に、RetinalGPTは定量的解析と病変の局在を特徴とし、LLMを解釈可能なエンドツーエンドの臨床研究フレームワークとして活用するための先駆的なステップである。コードはhttps://github.com/Retinal-Research/RetinalGPTで公開されている。

関連論文リスト

A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。データセットは439基の画像と75基のOCT画像からなる。標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文参考訳（メタデータ） (2025-03-10T09:19:55Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文参考訳（メタデータ） (2024-10-02T14:57:58Z)
Insight: A Multi-Modal Diagnostic Pipeline using LLMs for Ocular Surface Disease Diagnosis [17.970320199904084]
眼表面疾患の診断に大規模言語モデル(LLM)を用いた,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。これらの課題に対処するために,眼表面疾患の診断に大規模言語モデル(LLM)を用いることで,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
論文参考訳（メタデータ） (2024-10-01T00:23:05Z)
MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis [6.30440420617113]
MedTsLLMは、時系列データとリッチな文脈情報をテキスト形式で統合し、生理的信号を解析する汎用多モーダル大規模言語モデル(LLM)フレームワークである。本研究は,連続時間における意味的セグメンテーション,境界検出,異常検出という,臨床的関連性のある3つのタスクを実行する。我々のモデルは、深層学習モデル、他のLSM、および複数の医療領域における臨床方法など、最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2024-08-14T18:57:05Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-07-08T09:08:42Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文参考訳（メタデータ） (2023-12-08T08:43:46Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。