論文の概要: Learning Human Action Recognition Representations Without Real Humans
- arxiv url: http://arxiv.org/abs/2311.06231v1
- Date: Fri, 10 Nov 2023 18:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:16:43.459908
- Title: Learning Human Action Recognition Representations Without Real Humans
- Title(参考訳): 実人のいない人間の行動認識表現の学習
- Authors: Howard Zhong, Samarth Mishra, Donghyun Kim, SouYoung Jin, Rameswar
Panda, Hilde Kuehne, Leonid Karlinsky, Venkatesh Saligrama, Aude Oliva,
Rogerio Feris
- Abstract要約: そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
- 参考スコア(独自算出の注目度): 66.61527869763819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on massive video datasets has become essential to achieve high
action recognition performance on smaller downstream datasets. However, most
large-scale video datasets contain images of people and hence are accompanied
with issues related to privacy, ethics, and data protection, often preventing
them from being publicly shared for reproducible research. Existing work has
attempted to alleviate these problems by blurring faces, downsampling videos,
or training on synthetic data. On the other hand, analysis on the
transferability of privacy-preserving pre-trained models to downstream tasks
has been limited. In this work, we study this problem by first asking the
question: can we pre-train models for human action recognition with data that
does not include real humans? To this end, we present, for the first time, a
benchmark that leverages real-world videos with humans removed and synthetic
data containing virtual humans to pre-train a model. We then evaluate the
transferability of the representation learned on this data to a diverse set of
downstream action recognition benchmarks. Furthermore, we propose a novel
pre-training strategy, called Privacy-Preserving MAE-Align, to effectively
combine synthetic data and human-removed real data. Our approach outperforms
previous baselines by up to 5% and closes the performance gap between human and
no-human action recognition representations on downstream tasks, for both
linear probing and fine-tuning. Our benchmark, code, and models are available
at https://github.com/howardzh01/PPMA .
- Abstract(参考訳): 大規模ビデオデータセットの事前トレーニングは、より小さなダウンストリームデータセットで高いアクション認識性能を達成するために不可欠である。
しかし、ほとんどの大規模ビデオデータセットには人々の画像が含まれており、プライバシー、倫理、データ保護に関する問題に付随しており、しばしば再現可能な研究のために一般に共有されることを妨げている。
既存の研究は、顔のぼやけ、ビデオのサンプルダウン、合成データのトレーニングによってこれらの問題を緩和しようと試みている。
一方で,プライバシ保存型事前学習モデルのダウンストリームタスクへの転送可能性の分析が制限されている。
本研究では、まず、実際の人間を含まないデータを用いて、人間の行動認識のためのモデルを事前訓練できるか?
この目的のために,仮想人間を含む合成データを用いて,実世界ビデオを活用するベンチマークを初めて提示し,モデルを事前学習する。
次に,このデータから得られた表現の下流行動認識ベンチマークへの転送性を評価する。
さらに,プライバシ保存MAE-Alignと呼ばれる新しい事前学習戦略を提案し,人工データと人間の除去した実データとを効果的に組み合わせた。
提案手法は, 線形探索と微調整の両方において, 従来のベースラインを最大5%上回り, 下流タスクにおける人間と非人間の行動認識表現のパフォーマンスギャップを埋める。
ベンチマーク、コード、モデルはhttps://github.com/howardzh01/ppmaで利用可能です。
関連論文リスト
- Uncovering Hidden Subspaces in Video Diffusion Models Using Re-Identification [6.408114351192012]
我々は、特定の下流タスクのための合成データに基づいてトレーニングされたモデルが、実際のデータでトレーニングされたモデルよりも悪い性能を示すことを示した。
この違いは、トレーニングビデオのサブスペースであるサンプリングスペースが原因である可能性がある。
本稿では,潜在空間におけるプライバシ保護モデルのトレーニングが,計算効率が向上し,より一般化できることを最初に示す。
論文 参考訳(メタデータ) (2024-11-07T18:32:00Z) - Redefining Data Pairing for Motion Retargeting Leveraging a Human Body Prior [4.5409191511532505]
MR HuBo(Motion Retargeting leverageing a HUman BOdy prior)は,高品質な上半身対ロボットを収集する費用効率の良い方法である。
また、大量のペアデータに基づいて教師付き学習によってトレーニングできる2段階の運動ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T04:32:54Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer
Vision [3.5694949627557846]
我々は人間中心の合成データ生成装置 PeopleSansPeople をリリースする。
シミュレーション可能な3Dアセット、パラメータ化照明とカメラシステム、および2Dおよび3Dバウンディングボックス、インスタンスとセマンティックセグメンテーション、COCOポーズラベルを生成する。
論文 参考訳(メタデータ) (2021-12-17T02:33:31Z) - Playing for 3D Human Recovery [88.91567909861442]
本研究では,自動注釈付けされた3Dグラウンド真理でビデオゲームをプレイすることで,膨大な人間のシーケンスを得る。
具体的には,GTA-Vゲームエンジンで生成された大規模3次元人文データセットであるGTA-Humanをコントリビュートする。
GTA-Humanで訓練された単純なフレームベースのベースラインは、より高度な手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-10-14T17:49:42Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。