論文の概要: Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity
- arxiv url: http://arxiv.org/abs/2306.13735v1
- Date: Fri, 23 Jun 2023 18:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 19:26:49.094097
- Title: Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity
- Title(参考訳): 公益人活動認識データセットの併用によるラベル付きデータの空白化
- Authors: Riccardo Presotto, Sannara Ek, Gabriele Civitarese, Fran\c{c}ois
Portet, Philippe Lalanda, Claudio Bettini
- Abstract要約: 本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
- 参考スコア(独自算出の注目度): 1.274578243851308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of supervised learning for Human Activity Recognition (HAR) on mobile
devices leads to strong classification performances. Such an approach, however,
requires large amounts of labeled data, both for the initial training of the
models and for their customization on specific clients (whose data often differ
greatly from the training data). This is actually impractical to obtain due to
the costs, intrusiveness, and time-consuming nature of data annotation.
Moreover, even with the help of a significant amount of labeled data, model
deployment on heterogeneous clients faces difficulties in generalizing well on
unseen data. Other domains, like Computer Vision or Natural Language
Processing, have proposed the notion of pre-trained models, leveraging large
corpora, to reduce the need for annotated data and better manage heterogeneity.
This promising approach has not been implemented in the HAR domain so far
because of the lack of public datasets of sufficient size. In this paper, we
propose a novel strategy to combine publicly available datasets with the goal
of learning a generalized HAR model that can be fine-tuned using a limited
amount of labeled data on an unseen target domain. Our experimental evaluation,
which includes experimenting with different state-of-the-art neural network
architectures, shows that combining public datasets can significantly reduce
the number of labeled samples required to achieve satisfactory performance on
an unseen target domain.
- Abstract(参考訳): モバイルデバイスにおけるヒューマンアクティビティ認識のための教師付き学習(HAR)の利用は,強力な分類性能をもたらす。
しかし、そのようなアプローチでは、モデルの初期トレーニングと特定のクライアントのカスタマイズの両方において、大量のラベル付きデータを必要とする(これらのデータはトレーニングデータと大きく異なることが多い)。
これは実際に、データアノテーションのコスト、侵入性、時間のかかる性質のために入手できない。
さらに、大量のラベル付きデータの助けを借りても、ヘテロジニアスなクライアントへのモデル展開は、見当たらないデータでうまく一般化できない問題に直面している。
コンピュータビジョンや自然言語処理といった他の領域では、注釈付きデータの必要性を低減し、不均一性を管理するために、大きなコーパスを活用する事前訓練モデルの概念が提案されている。
この有望なアプローチは、十分なサイズの公開データセットが不足しているため、HARドメインでは実装されていない。
本稿では,利用可能なデータセットと,対象領域に限定されたラベル付きデータを用いて微調整可能な一般化harモデルを学習する目的とを組み合わせるための新しい戦略を提案する。
ニューラルネットワークアーキテクチャの実験を含む実験的な評価では、公開データセットを組み合わせることで、未認識のターゲットドメインで十分なパフォーマンスを実現するために必要なラベル付きサンプル数を大幅に削減できることが示された。
関連論文リスト
- Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。
本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。
我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文 参考訳(メタデータ) (2022-03-29T17:42:04Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。