論文の概要: Beyond Motion Primitives: Behavioral Activity Recognition from Head-Mounted IMU
- arxiv url: http://arxiv.org/abs/2605.27464v1
- Date: Tue, 26 May 2026 04:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.297353
- Title: Beyond Motion Primitives: Behavioral Activity Recognition from Head-Mounted IMU
- Title(参考訳): 運動プリミティブを超えて:頭を抱えたIMUによる行動行動認識
- Authors: Chung-Ta Huang, Leopold Das, Jeffrey Zhou, Faizaan Siddique, Julia Seungjoo Baek, Serena Liu, Andrew Rusli, Todd Y. Zhou, Freddy Yu, Sinclair Hansen, Ziling Hu, Arnav Sharma, Mengyu Wang,
- Abstract要約: ARスマートグラスは、積極的な支援を提供するために、継続的な行動コンテキストを必要とする。
頭部搭載慣性測定ユニット(IMU)は歩行や立位などの運動原始体のみを検出する。
私たちはモーションプリミティブを行動レベルの認識に超越し、ARアプリケーションに必要な5つのカテゴリとセンサーの可観測性を定義します。
- 参考スコア(独自算出の注目度): 0.8174163684747183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AR smart glasses need continuous behavioral context to offer proactive assistance, yet their most practical always-on sensor, the head-mounted Inertial Measurement Unit (IMU), detects only motion primitives such as walking or standing. We push beyond motion primitives to behavioral-level recognition, defining five categories that balance AR application need with sensor observability. To this end, we construct a 160K-sample Ego4D dataset with a four-tier quality assurance framework spanning 8 activity scenarios, and propose HiT-HAR, a 703K-parameter hierarchical model that outperforms prior head-mounted IMU models on five-class action and eight-class scenario recognition. We further map the observability frontier of head-mounted IMU through per-class separability analysis, identifying which behavioral categories are reliably observable (Locomotion), which benefit from temporal context (Object Transfer, Task Operation), and where scenario-dependent signal overlap poses remaining challenges. Our results indicate that architectural choices exploiting temporal context and scenario structure outperform simply scaling model size. The code and dataset are publicly available at https://github.com/Harvard-AI-and-Robotics-Lab/HiT-HAR.
- Abstract(参考訳): ARスマートグラスは、アクティブな補助を提供するために、継続的な行動コンテキストを必要とするが、最も実用的な常時オンのセンサーであるヘッドマウント慣性測定ユニット(IMU)は、歩行や立ち上がりのような運動プリミティブのみを検出する。
私たちはモーションプリミティブを行動レベルの認識に超越し、ARアプリケーションに必要な5つのカテゴリとセンサーの可観測性を定義します。
この目的のために,8つの活動シナリオにまたがる4層品質保証フレームワークを備えた160KサンプルEgo4Dデータセットを構築し,従来のIMUモデルよりも優れた703Kパラメータ階層モデルであるHiT-HARを提案する。
さらに、クラスごとの分離性分析により、時間的コンテキスト(オブジェクト転送、タスク操作)の恩恵を受けながら、どの行動カテゴリが確実に観測可能か(移動)、シナリオ依存信号の重複が残る課題を生じるか、といった、ヘッドマウントIMUの可観測性フロンティアをマッピングする。
以上の結果から,時間的コンテキストとシナリオ構造を利用したアーキテクチャ選択は,単にモデルサイズをスケールすることよりも優れていたことが示唆された。
コードとデータセットはhttps://github.com/Harvard-AI-and-Robotics-Lab/HiT-HARで公開されている。
関連論文リスト
- EventGait: Towards Robust Gait Recognition with Event Streams [50.890621860023]
イベントカメラは、マイクロ秒時間分解能と高ダイナミックレンジを提供し、自然にロバストなダイナミックキューをキャプチャし、静的ノイズを抑制する。
イベントの利点を保ちながら、動きと形状を別々にモデル化する、エンドツーエンドのデュアルストリームフレームワークである textbfEventGait を提案する。
当社のアプローチでは,イベント駆動歩行分析の堅牢性と可能性を強調し,合成および実世界の歩行ベンチマークに新たな技術状況が設定されている。
論文 参考訳(メタデータ) (2026-05-21T08:12:04Z) - From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation [32.41847293364159]
PRIMO R1はビデオMLLMをアクティブな「批判」に変換する7Bフレームワーク
我々は、結果に基づく強化学習を活用して、進捗推定のための明示的な連鎖生成をインセンティブ化する。
67.0%の精度でRoboFailベンチマークの最先端のパフォーマンスを確立し、OpenAI o1のようなクローズドソースモデルを6.2%上回った。
論文 参考訳(メタデータ) (2026-03-16T17:53:28Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction [12.071846486955627]
本稿ではLEGO-Motionという,クラスに依存しない動作予測タスクのための新しい占有状況モデリングフレームワークを提案する。
本モデルは,(1)BEVエンコーダ,(2)Interaction-Augmented Instance,(3)インスタンス強化型BEVからなる。
提案手法は最先端の性能を達成し,既存手法より優れている。
論文 参考訳(メタデータ) (2025-03-10T14:26:21Z) - HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba [7.412537185607976]
ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。
HARMambaは、選択的な双方向状態空間モデルとハードウェア対応設計を組み合わせた、革新的な軽量で多用途なHARアーキテクチャである。
HarMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2024-03-29T13:57:46Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Human Activity Recognition from Wearable Sensor Data Using
Self-Attention [2.9023633922848586]
本稿では,身体のセンサデータから行動認識のための自己認識型ニューラルネットワークモデルを提案する。
一般に公開されている4つのHARデータセット、PAMAP2、Opportunity、Skoda、USC-HADについて実験を行った。
ベンチマークテスト対象とLeave-out-subject評価の両方において,最近の最先端モデルよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2020-03-17T14:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。