論文の概要: Vision Language Models for Dynamic Human Activity Recognition in Healthcare Settings
- arxiv url: http://arxiv.org/abs/2510.21424v1
- Date: Fri, 24 Oct 2025 13:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.332681
- Title: Vision Language Models for Dynamic Human Activity Recognition in Healthcare Settings
- Title(参考訳): 医療施設における動的人間活動認識のための視覚言語モデル
- Authors: Abderrazek Abid, Thanh-Cong Ho, Fakhri Karray,
- Abstract要約: ビジョン言語モデル(VLM)は、様々な医療アプリケーションにおいて有望なツールとして登場した。
研究が比較的過小評価されている分野の1つは、遠隔の健康モニタリングにヒトの行動認識(HAR)を使用していることである。
この研究は強力なベンチマークに貢献し、VLMをインテリジェントヘルスケアシステムに統合する新たな可能性を開く。
- 参考スコア(独自算出の注目度): 5.301609879131692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As generative AI continues to evolve, Vision Language Models (VLMs) have emerged as promising tools in various healthcare applications. One area that remains relatively underexplored is their use in human activity recognition (HAR) for remote health monitoring. VLMs offer notable strengths, including greater flexibility and the ability to overcome some of the constraints of traditional deep learning models. However, a key challenge in applying VLMs to HAR lies in the difficulty of evaluating their dynamic and often non-deterministic outputs. To address this gap, we introduce a descriptive caption data set and propose comprehensive evaluation methods to evaluate VLMs in HAR. Through comparative experiments with state-of-the-art deep learning models, our findings demonstrate that VLMs achieve comparable performance and, in some cases, even surpass conventional approaches in terms of accuracy. This work contributes a strong benchmark and opens new possibilities for the integration of VLMs into intelligent healthcare systems.
- Abstract(参考訳): 生成AIが進化を続けるにつれ、ビジョン言語モデル(VLM)は様々な医療アプリケーションにおいて有望なツールとして登場してきた。
研究が比較的過小評価されている分野の1つは、遠隔の健康モニタリングにヒトの行動認識(HAR)を使用していることである。
VLMには、柔軟性の向上や、従来のディープラーニングモデルの制約を克服する能力など、注目すべき強みがある。
しかしながら、VLMをHARに適用する上での重要な課題は、動的でしばしば非決定論的出力を評価することの難しさにある。
このギャップに対処するために、記述的なキャプションデータセットを導入し、HARにおけるVLMを評価するための総合的な評価手法を提案する。
最先端のディープラーニングモデルを用いた比較実験により、VLMが同等の性能を発揮し、場合によっては精度の点で従来の手法を超越する結果が得られた。
この研究は強力なベンチマークに貢献し、VLMをインテリジェントヘルスケアシステムに統合する新たな可能性を開く。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文 参考訳(メタデータ) (2025-05-24T14:25:48Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。