論文の概要: The Potential and Limitations of Vision-Language Models for Human Motion Understanding: A Case Study in Data-Driven Stroke Rehabilitation
- arxiv url: http://arxiv.org/abs/2511.17727v1
- Date: Fri, 21 Nov 2025 19:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.382498
- Title: The Potential and Limitations of Vision-Language Models for Human Motion Understanding: A Case Study in Data-Driven Stroke Rehabilitation
- Title(参考訳): 人間の動作理解のための視覚言語モデルの可能性と限界:データ駆動型ストロークリハビリテーションを事例として
- Authors: Victor Li, Naveenraj Kamalakannan, Avinash Parnandi, Heidi Schambra, Carlos Fernandez-Granda,
- Abstract要約: 視覚言語モデル(VLM)は、幅広いコンピュータビジョンタスクにおいて顕著な性能を示した。
データ駆動型脳卒中リハビリテーションの基本的な課題として,リハビリテーション用量の自動定量化とビデオからの障害の2つにVLMを適用した。
健常者29名,脳卒中51名を対象に,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 5.904116188648651
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated remarkable performance across a wide range of computer-vision tasks, sparking interest in their potential for digital health applications. Here, we apply VLMs to two fundamental challenges in data-driven stroke rehabilitation: automatic quantification of rehabilitation dose and impairment from videos. We formulate these problems as motion-identification tasks, which can be addressed using VLMs. We evaluate our proposed framework on a cohort of 29 healthy controls and 51 stroke survivors. Our results show that current VLMs lack the fine-grained motion understanding required for precise quantification: dose estimates are comparable to a baseline that excludes visual information, and impairment scores cannot be reliably predicted. Nevertheless, several findings suggest future promise. With optimized prompting and post-processing, VLMs can classify high-level activities from a few frames, detect motion and grasp with moderate accuracy, and approximate dose counts within 25% of ground truth for mildly impaired and healthy participants, all without task-specific training or finetuning. These results highlight both the current limitations and emerging opportunities of VLMs for data-driven stroke rehabilitation and broader clinical video analysis.
- Abstract(参考訳): 視覚言語モデル(VLM)は、幅広いコンピュータビジョンタスクにおいて顕著なパフォーマンスを示しており、デジタルヘルスアプリケーションへの関心を喚起している。
本稿では,VLMをデータ駆動型脳卒中リハビリテーションの基本的な課題として,リハビリテーション用量の自動定量化とビデオからの障害の2つに適用する。
本稿では,これらの問題を,VLMを用いて対処可能な動作識別タスクとして定式化する。
健常者29名,脳卒中51名を対象に,提案手法の評価を行った。
以上の結果から,現在のVLMには正確な定量化に必要な微妙な運動理解が欠如していることが示唆された。
しかし、いくつかの発見は将来の可能性を示唆している。
最適化されたプロンプトと後処理により、VLMはいくつかのフレームからハイレベルなアクティビティを分類し、動きを検出し、適度な精度で把握し、軽度に障害のある、健康な参加者の25%以内に、すべてタスク固有のトレーニングや微調整なしで、近似線量計を適用できる。
これらの結果は、データ駆動型脳卒中リハビリテーションとより広範な臨床ビデオ解析におけるVLMの限界と新たな可能性の両方を浮き彫りにした。
関連論文リスト
- HiLWS: A Human-in-the-Loop Weak Supervision Framework for Curating Clinical and Home Video Data for Neurological Assessment [3.920493604448087]
ハンドモーター・タスク・ビデオのキュレーションとアノテートを行うためのHLWSについて述べる。
HiLWSは、まず専門家が提供するアノテーションを確率ラベルに集約するために弱い監督を施す新しいカスケードアプローチを採用している。
完全なパイプラインには、品質フィルタリング、最適化されたポーズ推定、タスク固有のセグメント抽出が含まれる。
論文 参考訳(メタデータ) (2025-09-09T22:30:25Z) - RARL: Improving Medical VLM Reasoning and Generalization with Reinforcement Learning and LoRA under Data and Hardware Constraints [0.0]
Reasoning-Aware Reinforcement Learning frameworkは、医療ビジョン言語モデルの推論能力を高める。
低ランク適応とカスタム報酬関数を用いた軽量ベースモデルQwen2-VL-2B-Instructを微調整する。
RARLは医用画像解析および臨床推論におけるVLM性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2025-06-07T00:26:23Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。