論文の概要: WS-IMUBench: Can Weakly Supervised Methods from Audio, Image, and Video Be Adapted for IMU-based Temporal Action Localization?
- arxiv url: http://arxiv.org/abs/2602.01850v1
- Date: Mon, 02 Feb 2026 09:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.037496
- Title: WS-IMUBench: Can Weakly Supervised Methods from Audio, Image, and Video Be Adapted for IMU-based Temporal Action Localization?
- Title(参考訳): WS-IMUBench:IMUに基づく時間的行動ローカライゼーションに、オーディオ、画像、ビデオから弱い監視方法が適応できるか?
- Authors: Pei Li, Jiaxi Yin, Lei Ouyang, Shihan Pan, Ge Wang, Han Ding, Fei Wang,
- Abstract要約: 本稿では,WS-IMU-TAL (WS-IMU-TAL) を,シーケンスレベルラベルのみを用いて体系的に評価するWS-IMUBenchを提案する。
我々は、7つの公開IMUデータセットに対して7つの弱い教師付き手法をベンチマークし、3,540以上のモデルトレーニングの実行と7,080の推論評価を行った。
我々は、WS-IMU-TALを進めるための具体的な方向性を概説する(例えば、IMU固有の提案生成、境界認識目的、時間的推論の強化など)。
- 参考スコア(独自算出の注目度): 13.36045413296022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: IMU-based Human Activity Recognition (HAR) has enabled a wide range of ubiquitous computing applications, yet its dominant clip classification paradigm cannot capture the rich temporal structure of real-world behaviors. This motivates a shift toward IMU Temporal Action Localization (IMU-TAL), which predicts both action categories and their start/end times in continuous streams. However, current progress is strongly bottlenecked by the need for dense, frame-level boundary annotations, which are costly and difficult to scale. To address this bottleneck, we introduce WS-IMUBench, a systematic benchmark study of weakly supervised IMU-TAL (WS-IMU-TAL) under only sequence-level labels. Rather than proposing a new localization algorithm, we evaluate how well established weakly supervised localization paradigms from audio, image, and video transfer to IMU-TAL under only sequence-level labels. We benchmark seven representative weakly supervised methods on seven public IMU datasets, resulting in over 3,540 model training runs and 7,080 inference evaluations. Guided by three research questions on transferability, effectiveness, and insights, our findings show that (i) transfer is modality-dependent, with temporal-domain methods generally more stable than image-derived proposal-based approaches; (ii) weak supervision can be competitive on favorable datasets (e.g., with longer actions and higher-dimensional sensing); and (iii) dominant failure modes arise from short actions, temporal ambiguity, and proposal quality. Finally, we outline concrete directions for advancing WS-IMU-TAL (e.g., IMU-specific proposal generation, boundary-aware objectives, and stronger temporal reasoning). Beyond individual results, WS-IMUBench establishes a reproducible benchmarking template, datasets, protocols, and analyses, to accelerate community-wide progress toward scalable WS-IMU-TAL.
- Abstract(参考訳): IMUベースのHuman Activity Recognition (HAR)は、ユビキタスコンピューティングの幅広い応用を可能にしているが、その主流のクリップ分類パラダイムは現実世界の行動の豊富な時間構造を捉えることはできない。
これにより、IMUの時間的行動ローカライゼーション(IMU-TAL)へのシフトが動機となり、連続ストリームにおけるアクションカテゴリと開始/終了時間の両方を予測する。
しかし、現在の進歩は、高コストでスケールが難しい高密度なフレームレベルのバウンダリアノテーションの必要性によって、非常にボトルネックになっている。
このボトルネックに対処するため、WS-IMUBenchという、弱い教師付きIMU-TAL(WS-IMU-TAL)の系統的ベンチマークをシーケンスレベルラベルのみで導入する。
新たなローカライゼーションアルゴリズムを提案するのではなく, 音声, 画像, ビデオのIMU-TALへの転送を, シーケンスレベルラベルのみで行うという, 弱い教師付きローカライゼーションパラダイムが十分に確立されているかを評価する。
我々は、7つの公開IMUデータセットに対して7つの弱い教師付き手法をベンチマークし、3,540以上のモデルトレーニングの実行と7,080の推論評価を行った。
トランスファービリティ, 有効性, 洞察に関する3つの研究質問に導かれ, この結果が示唆された。
(i)転送はモダリティに依存し、時間領域法は画像由来の提案に基づくアプローチよりも概して安定である。
(II)弱い監督は、好ましいデータセット(例えば、より長いアクションと高次元のセンシングを含む)と競合しうる。
第三に、短い行動、時間的曖昧さ、提案品質から、支配的な障害モードが発生する。
最後に、WS-IMU-TAL(例えば、IMU固有の提案生成、境界認識目的、時間的推論の強化)を進めるための具体的な方向性を概説する。
個々の結果以外にも、WS-IMUBenchは、スケーラブルなWS-IMU-TALに向けたコミュニティ全体の進歩を加速するために、再現可能なベンチマークテンプレート、データセット、プロトコル、分析を確立する。
関連論文リスト
- Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。