論文の概要: Count What You Want: Exemplar Identification and Few-shot Counting of
Human Actions in the Wild
- arxiv url: http://arxiv.org/abs/2312.17330v1
- Date: Thu, 28 Dec 2023 19:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:49:36.025727
- Title: Count What You Want: Exemplar Identification and Few-shot Counting of
Human Actions in the Wild
- Title(参考訳): 望みを数える: 野生における人間の行動の例示的識別と少数ショットカウント
- Authors: Yifeng Huang, Duc Duy Nguyen, Lam Nguyen, Cuong Pham, Minh Hoai
- Abstract要約: 本稿では,ウェアラブルデバイスからのセンサデータを用いて,人間の関心行動の数え方について検討する。
本稿では,事前定義された音を鳴らすことで,ユーザが目指す行動の模範を提示することのできる,新しい模範的枠組みを提案する。
このデータセットの実験では、トレーニングデータに含まれない新しいクラスや対象からのアクションのインスタンスをカウントする上で、提案手法の有効性が示されている。
- 参考スコア(独自算出の注目度): 19.796945454585444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the task of counting human actions of interest using
sensor data from wearable devices. We propose a novel exemplar-based framework,
allowing users to provide exemplars of the actions they want to count by
vocalizing predefined sounds ''one'', ''two'', and ''three''. Our method first
localizes temporal positions of these utterances from the audio sequence. These
positions serve as the basis for identifying exemplars representing the action
class of interest. A similarity map is then computed between the exemplars and
the entire sensor data sequence, which is further fed into a density estimation
module to generate a sequence of estimated density values. Summing these
density values provides the final count. To develop and evaluate our approach,
we introduce a diverse and realistic dataset consisting of real-world data from
37 subjects and 50 action categories, encompassing both sensor and audio data.
The experiments on this dataset demonstrate the viability of the proposed
method in counting instances of actions from new classes and subjects that were
not part of the training data. On average, the discrepancy between the
predicted count and the ground truth value is 7.47, significantly lower than
the errors of the frequency-based and transformer-based methods. Our project,
code and dataset can be found at https://github.com/cvlab-stonybrook/ExRAC.
- Abstract(参考訳): 本稿では,ウェアラブルデバイスからのセンサデータを用いて人的行動の計測を行う。
本稿では,既定の音「1」,「2」,「3」を発声することで,ユーザが目指す行動の模範を提示することのできる,新しい模範的枠組みを提案する。
本手法はまず,これらの発話の時間的位置を音声シーケンスから推定する。
これらのポジションは、関心の行動クラスを表す模範を識別する基盤となる。
そして、類似度マップを前駆者とセンサデータシーケンス全体の間で計算し、さらに密度推定モジュールに入力して推定密度値列を生成する。
これらの密度値の合計は最後のカウントを与える。
提案手法を開発,評価するために,センサデータと音声データの両方を含む37の被験者と50のアクションカテゴリからなる実世界のデータからなる多種多様な現実的データセットを導入した。
本データセットを用いた実験は,学習データに含まれない新しいクラスや被験者からのアクションの事例を数える上で,提案手法の有効性を示すものである。
平均して、予測カウントと基底真理値の差は7.47であり、周波数ベースおよび変圧器ベースの手法の誤差よりも著しく低い。
私たちのプロジェクト、コード、データセットはhttps://github.com/cvlab-stonybrook/ExRAC.comで確認できます。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Siamese Networks for Weakly Supervised Human Activity Recognition [2.398608007786179]
本稿では,データサンプルの類似性に関する情報のみを用いて,明示的なラベルを知らずに学習した複数のシアムネットワークを用いたモデルを提案する。
トレーニングされたモデルは、アクティビティデータサンプルを、表現空間内のベクトル間の距離が入力空間内のデータサンプルの類似性を近似するように、固定サイズ表現ベクトルにマッピングする。
本研究では,連続した人間の活動系列のセグメンテーションと認識において,その有効性を検証するために,3つのデータセット上でモデルを評価した。
論文 参考訳(メタデータ) (2023-07-18T03:23:34Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Handling Missing Annotations in Supervised Learning Data [0.0]
ADL (Activity of Daily Living) は、非常に大きなセンサーデータ読み取りを利用するシステムの例である。
生成されたデータセットのサイズは非常に大きいので、人間のアノテーションがデータセットのすべてのインスタンスに特定のラベルを付けることはほとんど不可能です。
本研究では,これらのギャップに対処する3つのパラダイムを提案し,検討する。
論文 参考訳(メタデータ) (2020-02-17T18:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。