論文の概要: GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2105.11789v1
- Date: Tue, 25 May 2021 09:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:06:36.781611
- Title: GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition
- Title(参考訳): GAN for Vision, KG for Relation: A Two-stage Deep Network for Zero-shot Action Recognition
- Authors: Bin Sun, Dehui Kong, Shaofan Wang, Jinghua Li, Baocai Yin, Xiaonan Luo
- Abstract要約: ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
- 参考スコア(独自算出の注目度): 33.23662792742078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot action recognition can recognize samples of unseen classes that are
unavailable in training by exploring common latent semantic representation in
samples. However, most methods neglected the connotative relation and
extensional relation between the action classes, which leads to the poor
generalization ability of the zero-shot learning. Furthermore, the learned
classifier incline to predict the samples of seen class, which leads to poor
classification performance. To solve the above problems, we propose a two-stage
deep neural network for zero-shot action recognition, which consists of a
feature generation sub-network serving as the sampling stage and a graph
attention sub-network serving as the classification stage. In the sampling
stage, we utilize a generative adversarial networks (GAN) trained by action
features and word vectors of seen classes to synthesize the action features of
unseen classes, which can balance the training sample data of seen classes and
unseen classes. In the classification stage, we construct a knowledge graph
(KG) based on the relationship between word vectors of action classes and
related objects, and propose a graph convolution network (GCN) based on
attention mechanism, which dynamically updates the relationship between action
classes and objects, and enhances the generalization ability of zero-shot
learning. In both stages, we all use word vectors as bridges for feature
generation and classifier generalization from seen classes to unseen classes.
We compare our method with state-of-the-art methods on UCF101 and HMDB51
datasets. Experimental results show that our proposed method improves the
classification performance of the trained classifier and achieves higher
accuracy.
- Abstract(参考訳): ゼロショット動作認識は、サンプル内の一般的な潜在意味表現を探索することで、トレーニングで使用できない未発見のクラスのサンプルを認識することができる。
しかし、ほとんどの方法は、アクションクラス間の意味的関係と拡張的関係を無視し、ゼロショット学習の一般化能力が低かった。
さらに、学習した分類器は、見掛けたクラスのサンプルを予測するために傾斜し、分類性能が低下する。
上記の問題を解決するため,ゼロショット動作認識のための2段階のディープニューラルネットワークを提案し,サンプリング段階として機能生成サブネットワーク,分類段階としてグラフアテンションサブネットワークからなる。
サンプリング段階では,行動特徴と見掛けたクラスの単語ベクトルによって訓練された生成的敵ネットワーク(gan)を用いて,見掛けたクラスと見掛けられたクラスのサンプルデータのバランスをとるアンセエンクラスの動作特徴を合成する。
分類段階において,アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフ(kg)を構築し,注意機構に基づくグラフ畳み込みネットワーク(gcn)を提案し,アクションクラスとオブジェクトの関係を動的に更新し,ゼロショット学習の一般化能力を高める。
どちらの段階でも、私たちはみな、機能生成のブリッジとして単語ベクトルを使い、見知らぬクラスから見当たらないクラスへの分類器の一般化を行います。
UCF101およびHMDB51データセットの最先端手法との比較を行った。
実験の結果,提案手法は訓練された分類器の分類性能を向上し,精度が向上した。
関連論文リスト
- Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。