論文の概要: HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare
- arxiv url: http://arxiv.org/abs/2603.08817v1
- Date: Mon, 09 Mar 2026 18:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.121661
- Title: HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare
- Title(参考訳): HMR-1:身体医療のための視覚言語モデルを用いた階層型マッサージロボット
- Authors: Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng Zhang,
- Abstract要約: 身体知性は医療、特に理学療法やリハビリテーションにおいて変革の機会を開いている。
我々は、12,190の画像と174,177のQAペアを含むマルチモーダルデータセットを構築し、様々な照明条件と背景をカバーした。
本稿では,ハイレベルなアキューポイント接地モジュールと低レベルな制御モジュールを備えた階層型エンボディマッサージフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.230151467353647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Embodied Intelligence has opened transformative opportunities in healthcare, particularly in physical therapy and rehabilitation. However, critical challenges remain in developing robust embodied healthcare solutions, such as the lack of standardized evaluation benchmarks and the scarcity of open-source multimodal acupoint massage datasets. To address these gaps, we construct MedMassage-12K - a multimodal dataset containing 12,190 images with 174,177 QA pairs, covering diverse lighting conditions and backgrounds. Furthermore, we propose a hierarchical embodied massage framework, which includes a high-level acupoint grounding module and a low-level control module. The high-level acupoint grounding module uses multimodal large language models to understand human language and identify acupoint locations, while the low-level control module provides the planned trajectory. Based on this, we evaluate existing MLLMs and establish a benchmark for embodied massage tasks. Additionally, we fine-tune the Qwen-VL model, demonstrating the framework's effectiveness. Physical experiments further confirm the practical applicability of the framework.Our dataset and code are publicly available at https://github.com/Xiaofeng-Han-Res/HMR-1.
- Abstract(参考訳): エボディード・インテリジェンス(Embodied Intelligence)の急速な進歩は、医療、特に理学療法やリハビリテーションにおいて変革の機会を開いた。
しかしながら、標準化された評価ベンチマークの欠如や、オープンソースのマルチモーダル・アキューポイント・マッサージデータセットの不足など、堅牢な医療ソリューションの開発において重要な課題が残っている。
これらのギャップに対処するため、MedMassage-12Kという、12,190の画像と174,177のQAペアを含むマルチモーダルデータセットを構築し、様々な照明条件と背景をカバーした。
さらに,高レベルアキューポイント接地モジュールと低レベル制御モジュールを含む階層型エンボディマッサージフレームワークを提案する。
高レベルアキューポイントグラウンドモジュールは、多モードの大規模言語モデルを使用して、人間の言語を理解し、アキューポイントの位置を特定する。
そこで本研究では,既存のMLLMを評価し,マッサージタスクを具体化するためのベンチマークを構築した。
さらに、Qwen-VLモデルを微調整し、フレームワークの有効性を示す。
我々のデータセットとコードはhttps://github.com/Xiaofeng-Han-Res/HMR-1.comで公開されている。
関連論文リスト
- MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images [25.29568841502814]
一般化MLLMアーキテクチャ上に構築された医療基盤モデルであるMedMOを紹介する。
VQAベンチマークでは、MedMOはベースラインよりも平均精度が+13.7%向上した。
医療報告生成において、MedMOは意味的および臨床的正確性の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2026-02-06T18:59:59Z) - Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models [45.285970665585914]
本稿では,継続的学習のための包括的枠組みを提案する。
モデル微調整のためのリアルタイムガイダンスを提供するマルチモーダル多層RAGシステムを用いる。
動的知識蒸留フレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-15T08:09:40Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine [23.716953682681975]
MedPLIBという名前のバイオメディカルドメインのための新しいエンド・ツー・エンド・マルチモーダル・大規模言語モデルを導入する。
視覚的質問応答(VQA)、任意のピクセルレベルのプロンプト(ポイント、バウンディングボックス、自由形式の形状)、ピクセルレベルの接地をサポートする。
その結果,MedPLIBは複数の医学的視覚言語タスクにおいて最先端の結果を得たことが示唆された。
論文 参考訳(メタデータ) (2024-12-12T13:41:35Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。