論文の概要: A Smart-Glasses for Emergency Medical Services via Multimodal Multitask Learning
- arxiv url: http://arxiv.org/abs/2511.13078v1
- Date: Mon, 17 Nov 2025 07:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.897671
- Title: A Smart-Glasses for Emergency Medical Services via Multimodal Multitask Learning
- Title(参考訳): マルチモーダルマルチタスク学習による救急医療用スマートグラス
- Authors: Liuyi Jin, Pasan Gunawardena, Amran Haroon, Runzhi Wang, Sangwoo Lee, Radu Stoleru, Michael Middleton, Zepeng Huo, Jeeeun Kim, Jason Moats,
- Abstract要約: 本稿では,EMSNetを利用したスマートグラスシステムであるEMSGlassと,EMSServeを,EMSシナリオに適した低遅延マルチモーダルサービスフレームワークとして提示する。
EMSNetはテキスト、バイタルサイン、シーンイメージを統合し、EMSインシデントに対する統合されたリアルタイム理解を構築する。
EMSServe は PyTorch のマルチモーダル推論による 1.9x -- 11.7x の高速化を実現している。
- 参考スコア(独自算出の注目度): 7.284746127785293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergency Medical Technicians (EMTs) operate in high-pressure environments, making rapid, life-critical decisions under heavy cognitive and operational loads. We present EMSGlass, a smart-glasses system powered by EMSNet, the first multimodal multitask model for Emergency Medical Services (EMS), and EMSServe, a low-latency multimodal serving framework tailored to EMS scenarios. EMSNet integrates text, vital signs, and scene images to construct a unified real-time understanding of EMS incidents. Trained on real-world multimodal EMS datasets, EMSNet simultaneously supports up to five critical EMS tasks with superior accuracy compared to state-of-the-art unimodal baselines. Built on top of PyTorch, EMSServe introduces a modality-aware model splitter and a feature caching mechanism, achieving adaptive and efficient inference across heterogeneous hardware while addressing the challenge of asynchronous modality arrival in the field. By optimizing multimodal inference execution in EMS scenarios, EMSServe achieves 1.9x -- 11.7x speedup over direct PyTorch multimodal inference. A user study evaluation with six professional EMTs demonstrates that EMSGlass enhances real-time situational awareness, decision-making speed, and operational efficiency through intuitive on-glass interaction. In addition, qualitative insights from the user study provide actionable directions for extending EMSGlass toward next-generation AI-enabled EMS systems, bridging multimodal intelligence with real-world emergency response workflows.
- Abstract(参考訳): 救急医療技術者(EMT)は高圧環境下で活動し、重度の認知的および運用上の負荷の下で、迅速かつ致命的な決定を下す。
本稿では,救急医療サービス(EMS)の最初のマルチモーダルマルチタスクモデルであるEMSNetと,EMSシナリオに適した低遅延マルチモーダルサービスフレームワークであるEMSServeを用いたスマートグラスシステムであるEMSGlassを紹介する。
EMSNetはテキスト、バイタルサイン、シーンイメージを統合し、EMSインシデントに対する統合されたリアルタイム理解を構築する。
EMSNetは、実世界のマルチモーダルEMSデータセットに基づいて訓練され、最先端のユニモーダルベースラインと比較して、高い精度で最大5つの重要なEMSタスクを同時にサポートする。
PyTorch上に構築されたEMSServeは、モダリティ対応モデル分割器と機能キャッシング機構を導入し、不均一なハードウェア間で適応的で効率的な推論を実現し、フィールドにおける非同期なモダリティ到着の課題に対処する。
EMSシナリオでマルチモーダル推論の実行を最適化することで、EMSServeは直接PyTorchマルチモーダル推論よりも1.9倍 -- 11.7倍のスピードアップを達成する。
6つの専門的EMTを用いたユーザスタディ評価により,EMSGlassは直感的オングラスインタラクションによりリアルタイムな状況認識,意思決定速度,操作効率を向上させることが示された。
さらに、ユーザー研究からの質的な洞察は、EMSGlassを次世代のAI対応EMSシステムに拡張し、現実世界の緊急対応ワークフローでマルチモーダルインテリジェンスをブリッジするための実用的な方向を提供する。
関連論文リスト
- EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services [3.0776354206437664]
EgoEMSは、最初のエンドツーエンド、高忠実、マルチモーダル、マルチパーソンのデータセットで、20時間以上の現実的、手続き的 EMS アクティビティをキャプチャする。
EgoEMSは、EMSの専門家と共同で開発され、国家標準に従って、オープンソースで低コストで複製可能なデータ収集システムを使用してキャプチャされる。
実時間マルチモーダルキーステップ認識と行動品質推定のためのベンチマークスイートを提案し,EMSのためのAI支援ツールの開発に不可欠である。
論文 参考訳(メタデータ) (2025-11-13T02:55:40Z) - Agentic Systems in Radiology: Design, Applications, Evaluation, and Challenges [13.53016942028838]
大型言語モデル(LLM)は、自然言語を使って情報を統合し、指示に従い、推論と計画の形式を実行することができる。
マルチモーダルなデータストリームと複数のシステムにまたがるオーケストレーションによって、ラジオロジーはコンテキストに適応し、繰り返しながら複雑なタスクを自動化するエージェントの恩恵を受けるのに一意に適している。
本稿では, LLMエージェントシステムの設計を概観し, 主要なアプリケーションを強調し, 計画とツール使用の評価方法について議論し, エラーカスケード, ツール使用効率, 健康IT統合といった課題の概要を述べる。
論文 参考訳(メタデータ) (2025-10-10T13:56:27Z) - MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning [82.14973479594367]
複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T15:42:55Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - STLLM-DF: A Spatial-Temporal Large Language Model with Diffusion for Enhanced Multi-Mode Traffic System Forecasting [32.943673568195315]
マルチタスク輸送予測を改善するため,時空間大言語モデル(STLLM-DF)を提案する。
DDPMの堅牢なdenoising機能により、ノイズの多い入力から基盤となるデータパターンを復元することができる。
STLLM-DFは既存のモデルより一貫して優れており,MAEでは平均2.40%,RMSEでは4.50%,MAPEでは1.51%の削減を実現している。
論文 参考訳(メタデータ) (2024-09-08T15:29:27Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Real-Time Multimodal Cognitive Assistant for Emergency Medical Services [4.669165383466683]
本稿では,エンド・ツー・エンドのウェアラブル認知アシスタントシステムであるCognitiveEMSを提案する。
緊急現場からのマルチモーダルデータのリアルタイム取得と分析に協力的な仮想パートナーとして機能する。
論文 参考訳(メタデータ) (2024-03-11T13:56:57Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。