論文の概要: Unsupervised Discriminative Embedding for Sub-Action Learning in Complex
Activities
- arxiv url: http://arxiv.org/abs/2105.00067v1
- Date: Fri, 30 Apr 2021 20:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:06:13.389017
- Title: Unsupervised Discriminative Embedding for Sub-Action Learning in Complex
Activities
- Title(参考訳): 複合活動におけるサブアクション学習のための教師なし判別埋め込み
- Authors: Sirnam Swetha, Hilde Kuehne, Yogesh S Rawat, Mubarak Shah
- Abstract要約: 本稿では,複雑な活動における教師なしサブアクション学習の新たなアプローチを提案する。
提案手法は,視覚表現と時間表現の両方を,サブアクションを識別的に学習する潜在空間にマッピングする。
視覚-時空間埋め込みと判別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。
- 参考スコア(独自算出の注目度): 54.615003524001686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action recognition and detection in the context of long untrimmed video
sequences has seen an increased attention from the research community. However,
annotation of complex activities is usually time consuming and challenging in
practice. Therefore, recent works started to tackle the problem of unsupervised
learning of sub-actions in complex activities. This paper proposes a novel
approach for unsupervised sub-action learning in complex activities. The
proposed method maps both visual and temporal representations to a latent space
where the sub-actions are learnt discriminatively in an end-to-end fashion. To
this end, we propose to learn sub-actions as latent concepts and a novel
discriminative latent concept learning (DLCL) module aids in learning
sub-actions. The proposed DLCL module lends on the idea of latent concepts to
learn compact representations in the latent embedding space in an unsupervised
way. The result is a set of latent vectors that can be interpreted as cluster
centers in the embedding space. The latent space itself is formed by a joint
visual and temporal embedding capturing the visual similarity and temporal
ordering of the data. Our joint learning with discriminative latent concept
module is novel which eliminates the need for explicit clustering. We validate
our approach on three benchmark datasets and show that the proposed combination
of visual-temporal embedding and discriminative latent concepts allow to learn
robust action representations in an unsupervised setting.
- Abstract(参考訳): 長いビデオシーケンスの文脈における行動認識と検出は、研究コミュニティから注目を集めている。
しかし、複雑なアクティビティのアノテーションは通常、時間を使い、実際に挑戦する。
そこで,近年,複合活動におけるサブアクションの教師なし学習の問題に取り組み始めた。
本稿では,複雑な活動における教師なしサブアクション学習のための新しいアプローチを提案する。
提案手法は,視覚表現と時間表現の両方を,エンド・ツー・エンドの方法で識別的に学習する潜在空間にマップする。
そこで本研究では,潜在概念としてのサブアクションを学習し,新たな識別潜在概念学習(DLCL)モジュールがサブアクションの学習を支援することを提案する。
提案したDLCLモジュールは、潜在埋め込み空間におけるコンパクト表現を教師なしの方法で学習する潜在概念のアイデアに頼っている。
その結果は、埋め込み空間におけるクラスター中心として解釈できる潜在ベクトルの集合である。
潜在空間自体は、データの視覚的類似性と時間的順序をキャプチャする共同視覚および時間的埋め込みによって形成される。
識別的潜在概念モジュールを用いた共同学習は,明示的なクラスタリングの必要性を排除した。
提案手法を3つのベンチマークデータセットで検証し,視覚-時空間埋め込みと識別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。
関連論文リスト
- Learning in Hybrid Active Inference Models [0.8749675983608172]
本稿では,高レベル離散型アクティブ・推論・プランナを低レベル連続型アクティブ・推論・コントローラの上に置く階層型ハイブリッド・アクティブ・推論・エージェントを提案する。
我々は、意味のある離散表現のエンドツーエンド学習を実装する線形力学系をリカレントに切り替えるという最近の研究を活用している。
当社のモデルを,探索と計画成功による高速なシステム識別を実証し,スパースな連続マウンテンカータスクに適用する。
論文 参考訳(メタデータ) (2024-09-02T08:41:45Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Understanding Distributed Representations of Concepts in Deep Neural
Networks without Supervision [25.449397570387802]
本稿では,ニューロンの主部分集合を選択することによって,概念の分散表現を発見する教師なし手法を提案する。
我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。
データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために利用することができる。
論文 参考訳(メタデータ) (2023-12-28T07:33:51Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。