論文の概要: Self-Supervised Human Activity Recognition by Augmenting Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2008.11755v2
- Date: Mon, 28 Dec 2020 18:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:57:02.235744
- Title: Self-Supervised Human Activity Recognition by Augmenting Generative
Adversarial Networks
- Title(参考訳): ジェネレーティブ・ディバイサル・ネットワークの強化による自己監督型人間活動認識
- Authors: Mohammad Zaki Zadeh, Ashwin Ramesh Babu, Ashish Jaiswal, Fillia
Makedon
- Abstract要約: 本稿では,自己教師型タスクによるGAN(Generative Adversarial Network)の拡張手法を提案する。
提案手法では,入力ビデオフレームは異なる空間変換によってランダムに変換される。
判別器は、補助損失を導入することにより、適用された変換を予測することを奨励される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article proposes a novel approach for augmenting generative adversarial
network (GAN) with a self-supervised task in order to improve its ability for
encoding video representations that are useful in downstream tasks such as
human activity recognition. In the proposed method, input video frames are
randomly transformed by different spatial transformations, such as rotation,
translation and shearing or temporal transformations such as shuffling temporal
order of frames. Then discriminator is encouraged to predict the applied
transformation by introducing an auxiliary loss. Subsequently, results prove
superiority of the proposed method over baseline methods for providing a useful
representation of videos used in human activity recognition performed on
datasets such as KTH, UCF101 and Ball-Drop. Ball-Drop dataset is a specifically
designed dataset for measuring executive functions in children through
physically and cognitively demanding tasks. Using features from proposed method
instead of baseline methods caused the top-1 classification accuracy to
increase by more then 4%. Moreover, ablation study was performed to investigate
the contribution of different transformations on downstream task.
- Abstract(参考訳): 本稿では,人間活動認識などの下流タスクに有用な映像表現を符号化する能力を向上させるために,GAN(Generative Adversarial Network)を自己指導タスクで拡張する手法を提案する。
提案手法では, フレームの回転, 翻訳, せん断などの異なる空間変換や, フレームの時間順序のシャッフルなどの時間変換によって, 入力ビデオフレームをランダムに変換する。
そして、補助損失を導入することにより、適用された変換を予測するように判別する。
提案手法は,kth,utf101,ball-dropなどのデータセット上での人間の行動認識に有用な映像表現を提供するため,ベースライン法よりも優れていることが示された。
Ball-Dropデータセットは、身体的および認知的に要求されるタスクを通じて、子供の実行機能を測定するために特別に設計されたデータセットである。
ベースライン法の代わりに提案手法の特徴を用いることで,トップ1分類精度は4%以上向上した。
さらに, 下流タスクにおける異なる変換の寄与を検討するため, アブレーション研究を行った。
関連論文リスト
- Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Graph Convolution Based Efficient Re-Ranking for Visual Retrieval [29.804582207550478]
特徴を更新することで、初期検索結果を洗練する効率的な再ランク付け手法を提案する。
具体的には、グラフ畳み込みネットワーク(GCN)に基づく再ランク付けを再構成し、特徴伝搬による視覚的検索タスクのための新しいグラフ畳み込みベース再ランク付け(GCR)を提案する。
特に、平面GCRは、クロスカメラ検索のために拡張され、異なるカメラ間の親和性関係を活用するために、改良された特徴伝搬定式化が提示される。
論文 参考訳(メタデータ) (2023-06-15T00:28:08Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive
Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。
本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文 参考訳(メタデータ) (2022-05-11T00:34:27Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。
我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。
機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-06T05:09:37Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。