論文の概要: Unleashing the Power of Shared Label Structures for Human Activity
Recognition
- arxiv url: http://arxiv.org/abs/2301.03462v2
- Date: Fri, 20 Oct 2023 00:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:35:24.835720
- Title: Unleashing the Power of Shared Label Structures for Human Activity
Recognition
- Title(参考訳): 人間行動認識のための共有ラベル構造のパワーを解き放つ
- Authors: Xiyuan Zhang, Ranak Roy Chowdhury, Jiayun Zhang, Dezhi Hong, Rajesh K.
Gupta, Jingbo Shang
- Abstract要約: SHAREは,異なる活動のためのラベル名の共有構造を考慮に入れたフレームワークである。
共有構造を利用するために、SHAREは入力感覚時系列から特徴を抽出するエンコーダと、ラベル名をトークンシーケンスとして生成するデコーダとを備える。
また,モデルが活動全体にわたって意味的構造をより効果的に捉えるのに役立つ3つのラベル拡張手法を提案する。
- 参考スコア(独自算出の注目度): 36.66107380956779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current human activity recognition (HAR) techniques regard activity labels as
integer class IDs without explicitly modeling the semantics of class labels. We
observe that different activity names often have shared structures. For
example, "open door" and "open fridge" both have "open" as the action; "kicking
soccer ball" and "playing tennis ball" both have "ball" as the object. Such
shared structures in label names can be translated to the similarity in sensory
data and modeling common structures would help uncover knowledge across
different activities, especially for activities with limited samples. In this
paper, we propose SHARE, a HAR framework that takes into account shared
structures of label names for different activities. To exploit the shared
structures, SHARE comprises an encoder for extracting features from input
sensory time series and a decoder for generating label names as a token
sequence. We also propose three label augmentation techniques to help the model
more effectively capture semantic structures across activities, including a
basic token-level augmentation, and two enhanced embedding-level and
sequence-level augmentations utilizing the capabilities of pre-trained models.
SHARE outperforms state-of-the-art HAR models in extensive experiments on seven
HAR benchmark datasets. We also evaluate in few-shot learning and label
imbalance settings and observe even more significant performance gap.
- Abstract(参考訳): 現在のヒューマンアクティビティ認識(HAR)技術は、クラスラベルのセマンティクスを明示的にモデル化することなく、アクティビティラベルを整数クラスIDと見なしている。
異なるアクティビティ名は、しばしば共有構造を持つ。
例えば、"open door" と "open fridge" はどちらもアクションとして "open" を持ち、"kicking soccer ball" と "playing tennis ball" はどちらもオブジェクトとして "ball" を持つ。
このようなラベル名の共有構造は、感覚データの類似性に変換され、共通の構造をモデル化することで、さまざまなアクティビティ、特に限られたサンプルを持つアクティビティに関する知識を明らかにすることができる。
本稿では,異なる活動のためのラベル名の共有構造を考慮したHARフレームワークであるSHAREを提案する。
共有構造を利用するために、SHAREは入力感覚時系列から特徴を抽出するエンコーダと、ラベル名をトークンシーケンスとして生成するデコーダとを備える。
また,基本的なトークンレベルの拡張を含む活動のセマンティック構造をより効果的に把握する3つのラベル拡張手法と,事前学習モデルの能力を利用した2つの埋め込みレベルおよびシーケンスレベルの拡張を提案する。
SHAREは、7つのHARベンチマークデータセットの広範な実験において、最先端のHARモデルを上回っている。
また,マイナショット学習とラベル不均衡設定の評価を行い,さらに重要なパフォーマンスギャップを観察した。
関連論文リスト
- CoA: Chain-of-Action for Generative Semantic Labels [5.016605351534376]
CoA(Chain-of-Action)メソッドは、画像の文脈的に関連する特徴に沿ったラベルを生成する。
CoAは、豊かで価値のある文脈情報が推論時の生成性能を改善するという観察に基づいて設計されている。
論文 参考訳(メタデータ) (2024-11-26T13:09:14Z) - Multi-grained Label Refinement Network with Dependency Structures for
Joint Intent Detection and Slot Filling [13.963083174197164]
発話の意図と意味的構成要素は、文の構文的要素に依存する。
本稿では,依存性構造とラベルセマンティック埋め込みを利用した多層ラベル精細ネットワークについて検討する。
構文表現の強化を考慮し,グラフアテンション層による文の係り受け構造をモデルに導入する。
論文 参考訳(メタデータ) (2022-09-09T07:27:38Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - BABEL: Bodies, Action and Behavior with English Labels [53.83774092560076]
モーキャップシーケンスで実行される動作を記述した言語ラベル付き大規模データセットであるBABELを提案する。
BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。
ベンチマークとしてBABELの価値を実証し、3次元動作認識におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2021-06-17T17:51:14Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - ActiLabel: A Combinatorial Transfer Learning Framework for Activity
Recognition [14.605223647792862]
ActiLabelは任意のドメインのイベントと異なるドメインのイベントの間の構造的類似性を学ぶフレームワークである。
3つの公開データセットに基づく実験は、最先端のトランスファー学習やディープラーニング手法よりもActiLabelの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-03-16T19:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。