論文の概要: Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition -- And Ways to Overcome Them
- arxiv url: http://arxiv.org/abs/2408.12023v1
- Date: Wed, 21 Aug 2024 22:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:43:40.017434
- Title: Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition -- And Ways to Overcome Them
- Title(参考訳): センサによる人間活動認識における自然言語スーパービジョンの活用の限界と克服方法
- Authors: Harish Haresamudram, Apoorva Beedu, Mashfiqui Rabbi, Sankalita Saha, Irfan Essa, Thomas Ploetz,
- Abstract要約: 自然言語と他のモダリティ間のクロスモーダルなコントラスト事前学習は、驚くべき性能と有効性を示している。
ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)において,このような自然言語の監視が有効かどうかを検討する。
当然のことながら、通常のエンドツーエンドのトレーニングやセルフスーパービジョンよりもはるかにパフォーマンスが劣っていることが分かりました。
- 参考スコア(独自算出の注目度): 10.878632018296326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal contrastive pre-training between natural language and other modalities, e.g., vision and audio, has demonstrated astonishing performance and effectiveness across a diverse variety of tasks and domains. In this paper, we investigate whether such natural language supervision can be used for wearable sensor based Human Activity Recognition (HAR), and discover that-surprisingly-it performs substantially worse than standard end-to-end training and self-supervision. We identify the primary causes for this as: sensor heterogeneity and the lack of rich, diverse text descriptions of activities. To mitigate their impact, we also develop strategies and assess their effectiveness through an extensive experimental evaluation. These strategies lead to significant increases in activity recognition, bringing performance closer to supervised and self-supervised training, while also enabling the recognition of unseen activities and cross modal retrieval of videos. Overall, our work paves the way for better sensor-language learning, ultimately leading to the development of foundational models for HAR using wearables.
- Abstract(参考訳): 自然言語と他のモダリティ(例えば視覚と音声)の相互に比較した事前学習は、様々なタスクや領域において、驚くほどの性能と有効性を示してきた。
本稿では,ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)において,そのような自然言語の監視が利用できるかを検討する。
センサの不均一性と、アクティビティのリッチで多様なテキスト記述の欠如である。
また,その影響を軽減するため,広範囲な実験評価を通じて戦略を開発し,その効果を評価する。
これらの戦略は、アクティビティ認識の大幅な増加をもたらし、パフォーマンスを教師付きおよび自己教師付きトレーニングに近づけると同時に、見えないアクティビティの認識とビデオのクロスモーダル検索を可能にする。
全体として、私たちの研究はセンサー言語学習の改善の道を切り開いており、最終的にはウェアラブルを用いたHARの基礎モデルの開発につながります。
関連論文リスト
- Boosting Self-Efficacy and Performance of Large Language Models via Verbal Efficacy Stimulations [10.209999691197948]
本稿では,VES(Verbal Efficacy Stimulations)を紹介する。
VESは、助力や能力といった6つの側面に対処する、励まし、挑発的、批判的な3つの言語プロンプトから構成される。
実験結果から,3種類のVESはLLMの性能を向上し,最も有効なVESはモデルによって異なることがわかった。
論文 参考訳(メタデータ) (2025-02-10T16:54:03Z) - Active Learning for Derivative-Based Global Sensitivity Analysis with Gaussian Processes [70.66864668709677]
高価なブラックボックス関数のグローバル感度解析におけるアクティブラーニングの問題点を考察する。
関数評価は高価であるため,最も価値の高い実験資源の優先順位付けにアクティブラーニングを利用する。
本稿では,デリバティブに基づくグローバル感度測定の重要量を直接対象とする,新たな能動的学習獲得関数を提案する。
論文 参考訳(メタデータ) (2024-07-13T01:41:12Z) - Unsupervised Embedding Learning for Human Activity Recognition Using
Wearable Sensor Data [2.398608007786179]
我々は,人間の活動が密接な位置にある埋め込み空間に投影する,教師なしの手法を提案する。
3つのラベル付きベンチマークデータセットの実験結果は、フレームワークの有効性を示している。
論文 参考訳(メタデータ) (2023-07-21T08:52:47Z) - A Real-time Human Pose Estimation Approach for Optimal Sensor Placement
in Sensor-based Human Activity Recognition [63.26015736148707]
本稿では,人間の行動認識に最適なセンサ配置の課題を解決するための新しい手法を提案する。
得られた骨格データは、最適なセンサ位置を特定するためのユニークな戦略を提供する。
本研究は,センサ配置の視覚的手法が従来のディープラーニング手法と同等の結果をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-07-06T10:38:14Z) - A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors [56.554277096170246]
In-the-wildデータ収集に焦点をあてたユーザスタディにおいて,一般的な4つのアノテーション手法の評価と対比を行う実験的検討を行った。
実際の記録プロセス中に参加者がアノテートするユーザ主導のin situアノテーションと、各日の終わりに参加者が振り返ってアノテートするリコールメソッドの両方に対して、参加者は自身のアクティビティクラスと対応するラベルを選択できる柔軟性を持っていた。
論文 参考訳(メタデータ) (2023-05-15T16:02:56Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - TASKED: Transformer-based Adversarial learning for human activity
recognition using wearable sensors via Self-KnowledgE Distillation [6.458496335718508]
本稿では,TASKED(Self-KnowledgE Distillation)を用いたウェアラブルセンサを用いた,トランスフォーマーに基づく人間行動認識のための新しい逆学習フレームワークを提案する。
提案手法では,教師なしの自己知識蒸留を採用し,訓練手順の安定性と人間の活動認識性能を向上させる。
論文 参考訳(メタデータ) (2022-09-14T11:08:48Z) - Towards Deep Clustering of Human Activities from Wearables [21.198881633580797]
本研究では,ウェアラブルからの人間行動認識の基本的な問題に対して,教師なしのエンドツーエンド学習戦略を開発する。
本研究では,センサデータの教師なし表現を協調的に学習し,異なる人間の活動に強い意味的対応を持つクラスタ代入を生成する手法の有効性を示す。
論文 参考訳(メタデータ) (2020-08-02T13:55:24Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z) - Attend And Discriminate: Beyond the State-of-the-Art for Human Activity
Recognition using Wearable Sensors [22.786406177997172]
ウェアラブルは、人間の活動に対する理解を改善するための基本です。
我々は、豊かで高度に差別化された活動表現を学ぶための新しい機会を精力的に探求する。
我々の貢献は4つの多様な活動認識問題ベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-07-14T16:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。