論文の概要: Sense Less, Infer More: Agentic Multimodal Transformers for Edge Medical Intelligence
- arxiv url: http://arxiv.org/abs/2604.10404v1
- Date: Sun, 12 Apr 2026 01:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.996153
- Title: Sense Less, Infer More: Agentic Multimodal Transformers for Edge Medical Intelligence
- Title(参考訳): エッジ・メディカル・インテリジェンスのためのエージェント・マルチモーダル・トランスフォーマー
- Authors: Chengwei Zhou, Zhaoyan Jia, Haotian Yu, Xuming Chen, Brandon Lee, Christopher Pulliam, Steve Majerus, Massoud Pedram, Gourav Datta,
- Abstract要約: 適応型マルチモーダルインテリジェンス(AMI:Adaptive Multimodal Intelligence)は、いつ、どのように推論するかを共同で学習するエンドツーエンドフレームワークである。
AMIは,(1)Gumbel-Sigmoid Gatingを用いてモデル信頼性とタスク関連性に基づいて動的にアクティブなセンサを選択できる軽量なエージェントモードコントローラ,(2)時間的に冗長なサンプルをスキップするための学習可能なしきい値を持つパッチワイズデルタシグマ演算を適用可能な学習Sigma-Delta Sensingモジュール,(3)非モーダルファウンデーションエンコーダと時間的コンテキストを持つクロスモーダルトランスフォーマーをベースとしたファンデーションベースのマルチモーダル予測モデル,の3つのコンポーネントを統合した。
- 参考スコア(独自算出の注目度): 11.75125432258758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge-based multimodal medical monitoring requires models that balance diagnostic accuracy with severe energy constraints. Continuous acquisition of ECG, PPG, EMG, and IMU streams rapidly drains wearable batteries, often limiting operation to under 10 hours, while existing systems overlook the high temporal redundancy present in physiological signals. We introduce Adaptive Multimodal Intelligence (AMI), an end-to-end framework that jointly learns when to sense and how to infer. AMI integrates three components: (1) a lightweight Agentic Modality Controller that uses differentiable Gumbel-Sigmoid gating to dynamically select active sensors based on model confidence and task relevance; (2) a Learned Sigma-Delta Sensing module that applies patch-wise Delta-Sigma operations with learnable thresholds to skip temporally redundant samples; and (3) a Foundation-backed Multimodal Prediction Model built on unimodal foundation encoders and a cross-modal transformer with temporal context, enabling robust fusion even under gated or missing inputs. These components are trained jointly via a multi-objective loss combining classification accuracy, sparsity regularization, cross-modal alignment, and predictive coding. AMI is hardware-aware, supporting dynamic computation graphs and masked operations, leading to real energy and latency savings. Across MHEALTH, HMC Sleep, and WESAD datasets, it reduces sensor usage by 48.8% while improving state-of-the-art accuracy by 1.9% on average.
- Abstract(参考訳): エッジベースのマルチモーダル医療モニタリングは、診断精度と厳しいエネルギー制約のバランスをとるモデルを必要とする。
ECG, PPG, EMG, IMU ストリームの連続的取得は、しばしば10時間未満の動作に制限されるが、既存のシステムは生理的信号に高い時間的冗長性を見落としている。
適応型マルチモーダルインテリジェンス(AMI:Adaptive Multimodal Intelligence)は、いつ、どのように推論するかを共同で学習するエンドツーエンドフレームワークである。
AMIは,(1)モデル信頼性とタスク関連性に基づいて動的にアクティブなセンサを選択可能なGumbel-Sigmoidゲーティングを用いた軽量なエージェントモードコントローラ,(2)時間的に冗長なサンプルをスキップするパッチワイズデルタシグマ演算を応用した学習済みSigma-Delta Sensingモジュール,(3)非モーダルファウンデーションエンコーダと時間的コンテキストを持つクロスモーダルトランスフォーマーをベースとしたファンデーションベースのマルチモーダル予測モデル,の3つのコンポーネントを統合した。
これらのコンポーネントは、分類精度、スパーシティ正規化、クロスモーダルアライメント、予測符号化を組み合わせた多目的損失によって共同で訓練される。
AMIはハードウェア対応で、動的計算グラフとマスキング操作をサポートし、実際のエネルギとレイテンシの削減につながる。
MHEALTH、HMC Sleep、WASADデータセット全体では、センサーの使用量を48.8%削減し、最先端の精度を平均1.9%改善している。
関連論文リスト
- Towards Dexterous Embodied Manipulation via Deep Multi-Sensory Fusion and Sparse Expert Scaling [6.026400295270904]
DeMUSEは、RGB、深さ、および6軸の力を統一されたシリアライズストリームに統合するフレームワークである。
AdaMNは、モダリティを意識した特徴の再検討、表現の不均衡の緩和に使用される。
統合認知目的は、物理的整合性を確保するために、環境進化とアクションシーケンスを同期的に合成する。
論文 参考訳(メタデータ) (2026-02-23T12:12:51Z) - Time2Vec Transformer for Robust Gesture Recognition from Low-Density sEMG [1.231764991565978]
本稿では筋電義手制御のための新しい,データ効率の高いディープラーニングフレームワークを提案する。
提案手法は, スパース2チャネル表面筋電図(sEMG)に最適化されたハイブリッドトランスフォーマーの実装である。
提案するフレームワークは, 迅速なパーソナライズが可能な次世代人工装具の堅牢で費用対効果の高い青写真を提供する。
論文 参考訳(メタデータ) (2026-02-02T09:28:27Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。