論文の概要: Learning Human Action Recognition Representations Without Real Humans
- arxiv url: http://arxiv.org/abs/2311.06231v1
- Date: Fri, 10 Nov 2023 18:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:16:43.459908
- Title: Learning Human Action Recognition Representations Without Real Humans
- Title(参考訳): 実人のいない人間の行動認識表現の学習
- Authors: Howard Zhong, Samarth Mishra, Donghyun Kim, SouYoung Jin, Rameswar
Panda, Hilde Kuehne, Leonid Karlinsky, Venkatesh Saligrama, Aude Oliva,
Rogerio Feris
- Abstract要約: そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
- 参考スコア(独自算出の注目度): 66.61527869763819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on massive video datasets has become essential to achieve high
action recognition performance on smaller downstream datasets. However, most
large-scale video datasets contain images of people and hence are accompanied
with issues related to privacy, ethics, and data protection, often preventing
them from being publicly shared for reproducible research. Existing work has
attempted to alleviate these problems by blurring faces, downsampling videos,
or training on synthetic data. On the other hand, analysis on the
transferability of privacy-preserving pre-trained models to downstream tasks
has been limited. In this work, we study this problem by first asking the
question: can we pre-train models for human action recognition with data that
does not include real humans? To this end, we present, for the first time, a
benchmark that leverages real-world videos with humans removed and synthetic
data containing virtual humans to pre-train a model. We then evaluate the
transferability of the representation learned on this data to a diverse set of
downstream action recognition benchmarks. Furthermore, we propose a novel
pre-training strategy, called Privacy-Preserving MAE-Align, to effectively
combine synthetic data and human-removed real data. Our approach outperforms
previous baselines by up to 5% and closes the performance gap between human and
no-human action recognition representations on downstream tasks, for both
linear probing and fine-tuning. Our benchmark, code, and models are available
at https://github.com/howardzh01/PPMA .
- Abstract(参考訳): 大規模ビデオデータセットの事前トレーニングは、より小さなダウンストリームデータセットで高いアクション認識性能を達成するために不可欠である。
しかし、ほとんどの大規模ビデオデータセットには人々の画像が含まれており、プライバシー、倫理、データ保護に関する問題に付随しており、しばしば再現可能な研究のために一般に共有されることを妨げている。
既存の研究は、顔のぼやけ、ビデオのサンプルダウン、合成データのトレーニングによってこれらの問題を緩和しようと試みている。
一方で,プライバシ保存型事前学習モデルのダウンストリームタスクへの転送可能性の分析が制限されている。
本研究では、まず、実際の人間を含まないデータを用いて、人間の行動認識のためのモデルを事前訓練できるか?
この目的のために,仮想人間を含む合成データを用いて,実世界ビデオを活用するベンチマークを初めて提示し,モデルを事前学習する。
次に,このデータから得られた表現の下流行動認識ベンチマークへの転送性を評価する。
さらに,プライバシ保存MAE-Alignと呼ばれる新しい事前学習戦略を提案し,人工データと人間の除去した実データとを効果的に組み合わせた。
提案手法は, 線形探索と微調整の両方において, 従来のベースラインを最大5%上回り, 下流タスクにおける人間と非人間の行動認識表現のパフォーマンスギャップを埋める。
ベンチマーク、コード、モデルはhttps://github.com/howardzh01/ppmaで利用可能です。
関連論文リスト
- Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer
Vision [3.5694949627557846]
我々は人間中心の合成データ生成装置 PeopleSansPeople をリリースする。
シミュレーション可能な3Dアセット、パラメータ化照明とカメラシステム、および2Dおよび3Dバウンディングボックス、インスタンスとセマンティックセグメンテーション、COCOポーズラベルを生成する。
論文 参考訳(メタデータ) (2021-12-17T02:33:31Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。