論文の概要: Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization
- arxiv url: http://arxiv.org/abs/2308.03950v1
- Date: Mon, 7 Aug 2023 23:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:46:52.022810
- Title: Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization
- Title(参考訳): 相互情報推定と最大化によるゼロショットスケルトンに基づく行動認識
- Authors: Yujie Zhou, Wenwen Qiang, Anyi Rao, Ning Lin, Bing Su, Jiaqi Wang
- Abstract要約: ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
- 参考スコア(独自算出の注目度): 26.721082316870532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot skeleton-based action recognition aims to recognize actions of
unseen categories after training on data of seen categories. The key is to
build the connection between visual and semantic space from seen to unseen
classes. Previous studies have primarily focused on encoding sequences into a
singular feature vector, with subsequent mapping the features to an identical
anchor point within the embedded space. Their performance is hindered by 1) the
ignorance of the global visual/semantic distribution alignment, which results
in a limitation to capture the true interdependence between the two spaces. 2)
the negligence of temporal information since the frame-wise features with rich
action clues are directly pooled into a single feature vector. We propose a new
zero-shot skeleton-based action recognition method via mutual information (MI)
estimation and maximization. Specifically, 1) we maximize the MI between visual
and semantic space for distribution alignment; 2) we leverage the temporal
information for estimating the MI by encouraging MI to increase as more frames
are observed. Extensive experiments on three large-scale skeleton action
datasets confirm the effectiveness of our method. Code:
https://github.com/YujieOuO/SMIE.
- Abstract(参考訳): ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
鍵となるのは、視覚空間とセマンティック空間の間の接続を構築することである。
これまでの研究は主に、配列を特異な特徴ベクトルに符号化することに集中し、その特徴を埋め込み空間内の同じアンカー点にマッピングしてきた。
彼らのパフォーマンスは
1)大域的な視覚的/意味的分布アライメントの無知は、2つの空間間の真の相互依存性を捉える限界をもたらす。
2)行動手がかりの豊富なフレームワイド特徴が単一特徴ベクトルに直接プールされるため,時間情報の無視
相互情報(MI)推定と最大化によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
具体的には
1) 分布アライメントのための視覚空間と意味空間の間のMIを最大化する。
2) 時間的情報を利用してMIを推定し, フレーム数が増えるにつれてMIの増大を促す。
3つの大規模スケルトン行動データセットに関する広範囲な実験を行い,本手法の有効性を確認した。
コード: https://github.com/yujieouo/smie。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition [18.012159340628557]
そこで本研究では,スケルトンに基づくゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習による新しい手法を提案する。
本手法は,データセット上でのZSLおよびGZSL設定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-11T05:51:06Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - CLTA: Contents and Length-based Temporal Attention for Few-shot Action
Recognition [2.0349696181833337]
本稿では,個々のビデオに対して時間的注意をカスタマイズしたコンテンツと長さに基づく時間的注意モデルを提案する。
通常のソフトマックス分類器で微調整されていないバックボーンであっても、最先端のアクション認識と同等あるいはそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2021-03-18T23:40:28Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。