論文の概要: MobiDiary: Autoregressive Action Captioning with Wearable Devices and Wireless Signals
- arxiv url: http://arxiv.org/abs/2601.08204v1
- Date: Tue, 13 Jan 2026 04:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.055784
- Title: MobiDiary: Autoregressive Action Captioning with Wearable Devices and Wireless Signals
- Title(参考訳): MobiDiary:ウェアラブルデバイスと無線信号による自動回帰アクションキャプション
- Authors: Fei Deng, Yinghui He, Chuntong Chu, Ge Wang, Han Ding, Jinsong Han, Fei Wang,
- Abstract要約: スマートホームにおけるヒューマンアクティビティ認識(HAR)は、健康モニタリングと補助的生活に不可欠である。
本研究では,異種物理信号から直接日常活動の自然言語記述を生成するフレームワークMobiDiaryを提案する。
- 参考スコア(独自算出の注目度): 20.30554810750095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) in smart homes is critical for health monitoring and assistive living. While vision-based systems are common, they face privacy concerns and environmental limitations (e.g., occlusion). In this work, we present MobiDiary, a framework that generates natural language descriptions of daily activities directly from heterogeneous physical signals (specifically IMU and Wi-Fi). Unlike conventional approaches that restrict outputs to pre-defined labels, MobiDiary produces expressive, human-readable summaries. To bridge the semantic gap between continuous, noisy physical signals and discrete linguistic descriptions, we propose a unified sensor encoder. Instead of relying on modality-specific engineering, we exploit the shared inductive biases of motion-induced signals--where both inertial and wireless data reflect underlying kinematic dynamics. Specifically, our encoder utilizes a patch-based mechanism to capture local temporal correlations and integrates heterogeneous placement embedding to unify spatial contexts across different sensors. These unified signal tokens are then fed into a Transformer-based decoder, which employs an autoregressive mechanism to generate coherent action descriptions word-by-word. We comprehensively evaluate our approach on multiple public benchmarks (XRF V2, UWash, and WiFiTAD). Experimental results demonstrate that MobiDiary effectively generalizes across modalities, achieving state-of-the-art performance on captioning metrics (e.g., BLEU@4, CIDEr, RMC) and outperforming specialized baselines in continuous action understanding.
- Abstract(参考訳): スマートホームにおけるヒューマンアクティビティ認識(HAR)は、健康モニタリングと補助的生活に不可欠である。
ビジョンベースのシステムは一般的だが、プライバシの懸念や環境上の制約(排除など)に直面している。
本研究では,不均一な物理信号(特にIMUとWi-Fi)から直接日常活動の自然言語記述を生成するフレームワークMobiDiaryを提案する。
事前定義されたラベルに出力を制限する従来のアプローチとは異なり、MobiDiaryは表現力のある人間の読みやすい要約を生成する。
連続的・ノイズの多い物理信号と離散言語記述とのセマンティックギャップを埋めるため,センサエンコーダの統一化を提案する。
モーダリティ固有のエンジニアリングに頼る代わりに、運動誘発信号の共用帰納バイアスを利用して、慣性データと無線データの両方が基礎となる運動力学を反映する。
具体的には,局所的な時間的相関を捉え,異種配置を組み込んで異なるセンサ間の空間的コンテキストを統一するためのパッチベースの機構を利用する。
これらの統一された信号トークンは、トランスフォーマーベースのデコーダに入力され、コヒーレントなアクション記述をワード単位で生成するために自己回帰機構を使用する。
複数の公開ベンチマーク(XRF V2, UWash, WiFiTAD)に対するアプローチを総合的に評価した。
実験の結果,MobiDiaryはモダリティを効果的に一般化し,キャプション指標(例えばBLEU@4,CIDEr,RCC)の最先端性能を達成し,連続行動理解における特殊ベースラインよりも優れていた。
関連論文リスト
- Chorus: Harmonizing Context and Sensing Signals for Data-Free Model Customization in IoT [2.546351849351806]
我々は,データフリーなモデルカスタマイズアプローチであるChorusを提案する。
Chorusは、センサーデータパターンへの影響を捉えた効果的なコンテキスト表現を学ぶ。
実験によると、Chorusは最先端のベースラインを最大11.3%上回っている。
論文 参考訳(メタデータ) (2025-12-17T08:56:21Z) - Effectively Identifying Wi-Fi Devices through State Transitions [0.8192907805418581]
Wi-Fi管理フレームはMACアドレスのランダム化の下でも持続する構造化通信パターンを示す。
本稿では,受動的に観察された管理フレームから抽出された行動力学に基づいて,Wi-Fiデバイスを指紋で識別する新しいフレームワークを提案する。
本手法は,Wi-Fi管理フレームのみを用いて,非ランダム化装置の識別精度を86%以上向上させる。
論文 参考訳(メタデータ) (2025-07-03T09:35:38Z) - ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [15.886402427095515]
対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。
従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。
本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
論文 参考訳(メタデータ) (2025-07-01T06:38:14Z) - DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding [29.643549839940025]
本稿では、DisCoRD: Rectified Flow Decodingによる連続運動への離散トークンの導入について紹介する。
私たちの中核となる考え方は、条件生成タスクとしてトークンデコーディングをフレーム化することです。
DisCoRDは、HumanML3Dで0.032、KIT-MLで0.169、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-29T07:54:56Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action
Recognition using WiFi [52.530330427538885]
WiFiベースのヒューマンアクション認識(HAR)は、スマートリビングやリモート監視といったアプリケーションにおいて、有望なソリューションと見なされている。
本稿では,無線機器からのWiFi信号を用いた動作を,多様なシナリオで直接認識する,エンド・ツー・エンドのGabor残差検知ネットワーク(GraSens)を提案する。
論文 参考訳(メタデータ) (2022-05-24T10:20:16Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。