論文の概要: Modular Retrieval-Augmented Generalization for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2605.08117v1
- Date: Tue, 28 Apr 2026 01:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.714779
- Title: Modular Retrieval-Augmented Generalization for Human Action Recognition
- Title(参考訳): 人間行動認識のためのモジュール検索拡張一般化
- Authors: Peng Liao, Shangsong Liang, Lin Chen, Peijia Zheng,
- Abstract要約: 本稿では,モーションシリーズ用に設計された最初のRetrieval-Augmented ModuleであるMoRAを紹介する。
本稿では,MoRA内の不確実性適応核融合ユニットを提案し,検索結果の冗長性や固形核融合戦略などの問題に対処する。
MoRAは既存のIMUベースのHARモデルの性能を大幅に改善し、安定的で効果的なゲインを提供する。
- 参考スコア(独自算出の注目度): 22.053840706778498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inertial Measurement Unit (IMU)-based Human Activity Recognition (HAR) aims to interpret and classify user behaviors from temporal motion signals. Recently, deep learning frameworks have advanced this task by learning and extracting discriminative spatiotemporal representations, significantly improving recognition performance. However, IMU-based HAR still faces several critical challenges, particularly limited training samples and static knowledge utilization, both of which severely hinder its large-scale deployment. In this paper, we introduce MoRA, the first Retrieval-Augmented Module specifically designed for motion series. It can be flexibly integrated into any existing HAR model, enhancing recognition performance while maintaining inference efficiency. To address issues such as information redundancy in retrieval results and rigid fusion strategies, we propose an uncertainty-adaptive fusion unit within MoRA. This unit leverages previous physical knowledge from IMU signals to dynamically adjust the fusion strategy between original outputs and retrieved information, enabling more robust recognition. Extensive experiments on ten real-world datasets demonstrate that MoRA significantly improves the performance of existing IMU-based HAR models, consistently delivering stable and effective gains. The source code of MoRA is available at: https://github.com/liavonpenn/mora.
- Abstract(参考訳): Inertial Measurement Unit (IMU) に基づくHuman Activity Recognition (HAR) は,ユーザの動作を時間的動作信号から解釈し,分類することを目的としている。
近年,識別時空間表現を学習・抽出し,認識性能を大幅に向上させることで,この課題を深層学習フレームワークが進めている。
しかし、IMUベースのHARは、特に限られたトレーニングサンプルと静的知識利用など、いくつかの重要な課題に直面している。
本稿では,モーションシリーズ用に設計された最初のRetrieval-Augmented ModuleであるMoRAを紹介する。
既存のHARモデルに柔軟に統合することができ、推論効率を維持しながら認識性能を向上させることができる。
検索結果における情報冗長性や厳密な融合戦略といった問題に対処するため,MoRA内の不確実性適応核融合ユニットを提案する。
このユニットは、IMU信号からの以前の物理知識を活用し、元の出力と取得した情報の融合戦略を動的に調整し、より堅牢な認識を可能にする。
10の実世界のデータセットに対する大規模な実験は、MoRAが既存のIMUベースのHARモデルの性能を大幅に改善し、安定的で効果的なゲインを継続的に提供することを示した。
MoRAのソースコードは、https://github.com/liavonpenn/mora.comで公開されている。
関連論文リスト
- ROSE: Retrieval-Oriented Segmentation Enhancement [79.7370065070812]
既存のマルチモーダル大言語モデル(MLLM)に基づくセグメンテーションモデルは、最新の知識を組み込むことができないため、しばしば新しいまたは新しいエンティティと競合する。
本論文では,学習データがないためMLLMが認識できない新規なエンティティのセグメンテーションと,モデルの知識の中に存在するが,正確な認識のために最新の情報を要求する新興エンティティのセグメンテーションに焦点を当てた,NEST(Novel Emerging Task)を紹介した。
Rose: Retrieval-Oriented Enhancementは、MLLMベースのセグメンテーションモデルを拡張するために設計されたプラグインとプレイのフレームワークです。
論文 参考訳(メタデータ) (2026-04-15T17:59:35Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-01T22:37:33Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - A Deep Learning Method for Complex Human Activity Recognition Using
Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。
本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。
提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文 参考訳(メタデータ) (2020-03-04T03:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。