Fugu-MT 論文翻訳(概要): Adapting and Evaluating Multimodal Large Language Models for Adolescent Idiopathic Scoliosis Self-Management: A Divide and Conquer Framework

論文の概要: Adapting and Evaluating Multimodal Large Language Models for Adolescent Idiopathic Scoliosis Self-Management: A Divide and Conquer Framework

arxiv url: http://arxiv.org/abs/2509.11645v1
Date: Mon, 15 Sep 2025 07:34:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-16 17:26:23.182832
Title: Adapting and Evaluating Multimodal Large Language Models for Adolescent Idiopathic Scoliosis Self-Management: A Divide and Conquer Framework
Title（参考訳）: 若年性特発性強皮症自己管理のための多モーダル大言語モデルの適用と評価
Authors: Zhaolong Wu, Pu Luo, Jason Pui Yin Cheung, Teng Zhang,
Abstract要約: 若年性特発性強皮症(AIS)に対するMLLM(Multimodal Large Language Models)の総合的評価を行った。診断用テキストを用いた約3,000個の後部X線データベースを構築し,Divide and Conquer フレームワークを用いて5つのMLLMを評価した。
参考スコア（独自算出の注目度）: 4.014863948559276
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study presents the first comprehensive evaluation of Multimodal Large Language Models (MLLMs) for Adolescent Idiopathic Scoliosis (AIS) self-management. We constructed a database of approximately 3,000 anteroposterior X-rays with diagnostic texts and evaluated five MLLMs through a `Divide and Conquer' framework consisting of a visual question-answering task, a domain knowledge assessment task, and a patient education counseling assessment task. Our investigation revealed limitations of MLLMs' ability in interpreting complex spinal radiographs and comprehending AIS care knowledge. To address these, we pioneered enhancing MLLMs with spinal keypoint prompting and compiled an AIS knowledge base for retrieval augmented generation (RAG), respectively. Results showed varying effectiveness of visual prompting across different architectures, while RAG substantially improved models' performances on the knowledge assessment task. Our findings indicate current MLLMs are far from capable in realizing personalized assistant in AIS care. The greatest challenge lies in their abilities to obtain accurate detections of spinal deformity locations (best accuracy: 0.55) and directions (best accuracy: 0.13).
Abstract（参考訳）: 若年性特発性強皮症(AIS)に対するMLLM(Multimodal Large Language Models)の総合的評価を行った。診断用テキストを用いた約3,000個の後部X線データベースを構築し,視覚的質問応答タスク,ドメイン知識評価タスク,患者教育カウンセリング評価タスクからなる「Divide and Conquer」フレームワークを用いて,5つのMLLMを評価した。本研究は,複雑な脊椎X線像の解釈とAISケア知識の理解におけるMLLMsの能力の限界を明らかにした。これらの課題に対処するため,我々は,脊髄キーポイントによるMLLMの強化を開拓し,AISナレッジベースをRAG (Regegration augmented generation) にコンパイルした。 RAGは知識評価タスクにおけるモデルの性能を大幅に改善する一方、異なるアーキテクチャ間の視覚的プロンプトの有効性は様々であった。以上の結果から,現在のMLLMはAISケアにおけるパーソナライズされたアシスタントの実現には程遠いことが示唆された。最大の課題は、脊椎変形箇所の正確な検出(最高精度:0.55)と方向(最高精度:0.13)を得る能力である。

関連論文リスト

Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative [14.002322217782364]
マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示す。膝関節症(OA)分類におけるMLLMアーキテクチャの検討を行った。
論文参考訳（メタデータ） (2026-01-05T13:31:44Z)
DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。これらのギャップに対処するための包括的なフレームワークを提示します。まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文参考訳（メタデータ） (2026-01-05T07:55:36Z)
Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies [9.1953139634128]
本研究では,医療画像分類作業における小言語モデル(SLM)の性能について検討する。 NIH Chest X-ray データセットを用いて胸部X線位置を分類する作業において,複数のSLMを評価した。以上の結果から,一部のSLMは良好なプロンプトで競合精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-08-18T21:48:45Z)
Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving [18.815592287807394]
大規模言語モデル (LLM) は様々な医学ベンチマークで顕著な性能を示した。しかし、その能力は様々な認知レベルにわたって過小評価されている。医療領域におけるLCMの評価のための多認知レベル評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T02:07:33Z)
LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文参考訳（メタデータ） (2025-03-10T16:05:40Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。医学などの専門分野における性能や信頼性は依然として十分に評価されていない。本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文参考訳（メタデータ） (2024-08-16T12:32:44Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness [12.34805170671815]
大規模言語モデル (LLM) は, 様々なバイオメディカル自然言語処理 (NLP) タスクにおいて顕著な機能を示した。 Retrieval-augmented large language model (RAL)は、確立したデータベースから関連する情報を取得することで、ソリューションを提供する。本研究では, ラベルのない頑健性, 反事実的堅牢性, 多様な頑健性, 否定的認識など, 4つの基本能力におけるラルのパフォーマンスを分析した。
論文参考訳（メタデータ） (2024-05-13T19:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。