論文の概要: Adapting and Evaluating Multimodal Large Language Models for Adolescent Idiopathic Scoliosis Self-Management: A Divide and Conquer Framework
- arxiv url: http://arxiv.org/abs/2509.11645v1
- Date: Mon, 15 Sep 2025 07:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.182832
- Title: Adapting and Evaluating Multimodal Large Language Models for Adolescent Idiopathic Scoliosis Self-Management: A Divide and Conquer Framework
- Title(参考訳): 若年性特発性強皮症自己管理のための多モーダル大言語モデルの適用と評価
- Authors: Zhaolong Wu, Pu Luo, Jason Pui Yin Cheung, Teng Zhang,
- Abstract要約: 若年性特発性強皮症(AIS)に対するMLLM(Multimodal Large Language Models)の総合的評価を行った。
診断用テキストを用いた約3,000個の後部X線データベースを構築し,Divide and Conquer フレームワークを用いて5つのMLLMを評価した。
- 参考スコア(独自算出の注目度): 4.014863948559276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study presents the first comprehensive evaluation of Multimodal Large Language Models (MLLMs) for Adolescent Idiopathic Scoliosis (AIS) self-management. We constructed a database of approximately 3,000 anteroposterior X-rays with diagnostic texts and evaluated five MLLMs through a `Divide and Conquer' framework consisting of a visual question-answering task, a domain knowledge assessment task, and a patient education counseling assessment task. Our investigation revealed limitations of MLLMs' ability in interpreting complex spinal radiographs and comprehending AIS care knowledge. To address these, we pioneered enhancing MLLMs with spinal keypoint prompting and compiled an AIS knowledge base for retrieval augmented generation (RAG), respectively. Results showed varying effectiveness of visual prompting across different architectures, while RAG substantially improved models' performances on the knowledge assessment task. Our findings indicate current MLLMs are far from capable in realizing personalized assistant in AIS care. The greatest challenge lies in their abilities to obtain accurate detections of spinal deformity locations (best accuracy: 0.55) and directions (best accuracy: 0.13).
- Abstract(参考訳): 若年性特発性強皮症(AIS)に対するMLLM(Multimodal Large Language Models)の総合的評価を行った。
診断用テキストを用いた約3,000個の後部X線データベースを構築し,視覚的質問応答タスク,ドメイン知識評価タスク,患者教育カウンセリング評価タスクからなる「Divide and Conquer」フレームワークを用いて,5つのMLLMを評価した。
本研究は,複雑な脊椎X線像の解釈とAISケア知識の理解におけるMLLMsの能力の限界を明らかにした。
これらの課題に対処するため,我々は,脊髄キーポイントによるMLLMの強化を開拓し,AISナレッジベースをRAG (Regegration augmented generation) にコンパイルした。
RAGは知識評価タスクにおけるモデルの性能を大幅に改善する一方、異なるアーキテクチャ間の視覚的プロンプトの有効性は様々であった。
以上の結果から,現在のMLLMはAISケアにおけるパーソナライズされたアシスタントの実現には程遠いことが示唆された。
最大の課題は、脊椎変形箇所の正確な検出(最高精度:0.55)と方向(最高精度:0.13)を得る能力である。
関連論文リスト
- Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving [18.815592287807394]
大規模言語モデル (LLM) は様々な医学ベンチマークで顕著な性能を示した。
しかし、その能力は様々な認知レベルにわたって過小評価されている。
医療領域におけるLCMの評価のための多認知レベル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:07:33Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness [12.34805170671815]
大規模言語モデル (LLM) は, 様々なバイオメディカル自然言語処理 (NLP) タスクにおいて顕著な機能を示した。
Retrieval-augmented large language model (RAL)は、確立したデータベースから関連する情報を取得することで、ソリューションを提供する。
本研究では, ラベルのない頑健性, 反事実的堅牢性, 多様な頑健性, 否定的認識など, 4つの基本能力におけるラルのパフォーマンスを分析した。
論文 参考訳(メタデータ) (2024-05-13T19:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。