論文の概要: FT-ARM: Fine-Tuned Agentic Reflection Multimodal Language Model for Pressure Ulcer Severity Classification with Reasoning
- arxiv url: http://arxiv.org/abs/2510.24980v1
- Date: Tue, 28 Oct 2025 21:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.79318
- Title: FT-ARM: Fine-Tuned Agentic Reflection Multimodal Language Model for Pressure Ulcer Severity Classification with Reasoning
- Title(参考訳): FT-ARM:Reasoningを用いた圧力紫外重度分類のための微調整エージェント反射多モード言語モデル
- Authors: Reza Saadati Fard, Emmanuel Agu, Palawat Busaranuvong, Deepak Kumar, Shefalika Gautam, Bengisu Tulu, Diane Strong, Lorraine Loretz,
- Abstract要約: 圧力潰瘍(PUs)は重篤かつ一般的な医療上の問題である。
PU重症度(Stages I-IV)の正確な分類は適切な治療に不可欠である。
PU重度分類のためのエージェント自己回帰機構を備えた細調整多モード大言語モデル(MLLM)であるFT-ARMを提案する。
- 参考スコア(独自算出の注目度): 2.4095540924689405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pressure ulcers (PUs) are a serious and prevalent healthcare concern. Accurate classification of PU severity (Stages I-IV) is essential for proper treatment but remains challenging due to subtle visual distinctions and subjective interpretation, leading to variability among clinicians. Prior AI-based approaches using Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) achieved promising accuracy but offered limited interpretability. We present FT-ARM (Fine-Tuned Agentic Reflection Multimodal model), a fine-tuned multimodal large language model (MLLM) with an agentic self-reflection mechanism for pressure ulcer severity classification. Inspired by clinician-style diagnostic reassessment, FT-ARM iteratively refines its predictions by reasoning over visual features and encoded clinical knowledge from text, enhancing both accuracy and consistency. On the publicly available Pressure Injury Image Dataset (PIID), FT-ARM, fine-tuned from LLaMA 3.2 90B, achieved 85% accuracy in classifying PU stages I-IV, surpassing prior CNN-based models by +4%. Unlike earlier CNN/ViT studies that relied solely on offline evaluations, FT-ARM is designed and tested for live inference, reflecting real-time deployment conditions. Furthermore, it produces clinically grounded natural-language explanations, improving interpretability and trust. By integrating fine-tuning and reflective reasoning across multimodal inputs, FT-ARM advances the reliability, transparency, and clinical applicability of automated wound assessment systems, addressing the critical need for consistent and explainable PU staging to support improved patient care.
- Abstract(参考訳): 圧力潰瘍(PUs)は重篤かつ一般的な医療上の問題である。
PU重症度 (Stages I-IV) の正確な分類は適切な治療には不可欠であるが, 微妙な視覚的区別や主観的解釈が原因で依然として困難であり, 臨床医の多様性に繋がる。
従来のAIベースのアプローチでは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が有望な精度を実現したが、限定的な解釈性を提供した。
圧力潰瘍重症度分類のためのエージェント自己回帰機構を備えた細調整多モード言語モデル(MLLM)であるFT-ARM(Fine-Tuned Agentic Reflection Multimodal Model)を提案する。
クリニックスタイルの診断再評価にインスパイアされたFT-ARMは、視覚的特徴を推論し、テキストから臨床知識を符号化することで予測を反復的に洗練し、正確性と整合性の両方を高める。
LLaMA 3.2 90B から微調整された FT-ARM は、公開されている圧力損傷画像データセット (PIID) において、PUステージ I-IV を85%の精度で分類し、CNN ベースのモデルより+4%も上回った。
オフライン評価のみに依存する以前のCNN/ViT研究とは異なり、FT-ARMはリアルタイムデプロイメント条件を反映したライブ推論のために設計およびテストされている。
さらに、臨床的に根拠付けられた自然言語の説明を生成し、解釈可能性と信頼を向上させる。
FT-ARMは、マルチモーダル入力にまたがる微調整と反射的推論を統合することにより、自動創傷評価システムの信頼性、透明性、臨床応用性を向上し、患者ケアの改善をサポートするために、一貫性と説明可能なPUステージングの必要性に対処する。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs [9.291589998223696]
MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
論文 参考訳(メタデータ) (2025-10-14T08:04:18Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Towards Interpretable Renal Health Decline Forecasting via Multi-LMM Collaborative Reasoning Framework [12.732588046754783]
本稿では,eGFR予測のためのオープンソースのLMMの性能向上を目的とした協調的フレームワークを提案する。
視覚的知識伝達、帰納的推論、および予測精度と解釈可能性を高めるための短期記憶機構が組み込まれている。
我々の手法は、予測精度と臨床的に根拠付けられた解釈可能性を組み合わせた医療用AIシステムの構築に新たな光を当てている。
論文 参考訳(メタデータ) (2025-07-30T08:11:06Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Adversarial Prompt Distillation for Vision-Language Models [61.39214202062028]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles [4.249986624493547]
一度展開すると、医用画像解析法は予期せぬ画像の破損やノイズの摂動に直面することが多い。
LaDiNEは、視覚変換器のロバスト性と拡散に基づく生成モデルを組み合わせた、新しいアンサンブル学習手法である。
結核胸部X線とメラノーマ皮膚がんデータセットの実験により、LaDiNEは幅広い最先端の方法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-24T15:53:07Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。