論文の概要: Universal Prototype Transport for Zero-Shot Action Recognition and
Localization
- arxiv url: http://arxiv.org/abs/2203.03971v1
- Date: Tue, 8 Mar 2022 09:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:55:15.568812
- Title: Universal Prototype Transport for Zero-Shot Action Recognition and
Localization
- Title(参考訳): ゼロショット行動認識と局所化のためのユニバーサルプロトタイプトランスポート
- Authors: Pascal Mettes
- Abstract要約: 現在の最先端技術は、ビデオから共有セマンティック空間へのユニバーサルマッピングを学習することで、ゼロショット認識を可能にする。
効果はあるものの、普遍的なアクションとオブジェクトマッピングはそれらのカテゴリに偏っている。
ゼロショット動作認識のためのユニバーサルプロトタイプトランスポートを提案する。
- 参考スコア(独自算出の注目度): 16.630571993283695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of recognizing action categories in videos
for which no training examples are available. The current state-of-the-art
enables such a zero-shot recognition by learning universal mappings from videos
to a shared semantic space, either trained on large-scale seen actions or on
objects. While effective, we find that universal action and object mappings are
biased to their seen categories. Such biases are further amplified due to
biases between seen and unseen categories in the semantic space. The
compounding biases result in many unseen action categories simply never being
selected during inference, hampering zero-shot progress. We seek to address
this limitation and introduce universal prototype transport for zero-shot
action recognition. The main idea is to re-position the semantic prototypes of
unseen actions through transduction, i.e. by using the distribution of the
unlabelled test set. For universal action models, we first seek to find a
hyperspherical optimal transport mapping from unseen action prototypes to the
set of all projected test videos. We then define a target prototype for each
unseen action as the weighted Fr\'echet mean over the transport couplings.
Equipped with a target prototype, we propose to re-position unseen action
prototypes along the geodesic spanned by the original and target prototypes,
acting as a form of semantic regularization. For universal object models, we
outline a variant that defines target prototypes based on an optimal transport
between unseen action prototypes and semantic object prototypes. Empirically,
we show that universal prototype transport diminishes the biased selection of
unseen action prototypes and boosts both universal action and object models,
resulting in state-of-the-art performance for zero-shot classification and
spatio-temporal localization.
- Abstract(参考訳): この研究は、トレーニング例が存在しないビデオにおけるアクションカテゴリを認識する問題に対処する。
現在の最先端技術は、ビデオから共有セマンティクス空間への普遍的なマッピングを学習することで、このようなゼロショット認識を可能にする。
効果はあるものの、普遍的なアクションとオブジェクトマッピングはそれらのカテゴリに偏っている。
このようなバイアスは、意味空間における見かけと見えないカテゴリーの間のバイアスによってさらに増幅される。
複合バイアスは、多くの目に見えないアクションカテゴリを推論中に選択しないだけで、ゼロショット進行を阻害する。
我々はこの制限に対処し,ゼロショット動作認識のためのユニバーサルプロトタイプトランスポートを導入する。
主なアイデアは、無意味な動作の意味的プロトタイプを変換、すなわち、無ラベルテストセットの分布を用いて再配置することである。
ユニバーサルアクションモデルでは、まず、目に見えないアクションプロトタイプから全ての投影されたテストビデオの集合への超球面の最適トランスポートマッピングを求める。
次に、各未確認動作に対する目標プロトタイプを、輸送結合に対する重み付きFr'echet平均として定義する。
対象のプロトタイプを具備し,原型および対象のプロトタイプにまたがる測地線に沿って未知のアクションプロトタイプを再配置し,意味的正則化の一形態として機能することを提案する。
汎用オブジェクトモデルでは、目に見えないアクションプロトタイプとセマンティックオブジェクトプロトタイプ間の最適な移動に基づいてターゲットプロトタイプを定義する。
実験により、ユニバーサルプロトタイプトランスポートは、目に見えないアクションプロトタイプのバイアス選択を減らし、ユニバーサルアクションとオブジェクトモデルの両方を向上し、ゼロショット分類と時空間局所化の最先端性能をもたらすことを示す。
関連論文リスト
- Negative Prototypes Guided Contrastive Learning for WSOD [8.102080369924911]
近年,画像レベルのアノテーションのみを持つ弱監視対象検出(WSOD)が注目されている。
本稿では,Native Prototypes Guided Contrastive Learning Architectureを提案する。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T08:16:26Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition [15.685927265270085]
ガウス分布プロトタイプ(MGProto)の混合(mixture of Gaussian-Distributed Prototypes)と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。
MGProtoは最先端の画像認識とOoD検出性能を実現し,解釈可能性の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T11:01:37Z) - ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers
for Interpretable Image Recognition [32.34322644235324]
プロトタイプ部分ネットワーク(ProtoPNet)は、説明可能な人工知能(XAI)のための自己探索的特性のため、広く注目され、多くのフォローアップ研究が進められている。
視覚変換器(ViT)のバックボーンに直接ProtoPNetを適用する場合、学習されたプロトタイプは背景によって起動される確率が比較的高く、前景にはあまり注意を払わない。
本稿では,プロトタイプ部分変換器(ProtoPFormer)を提案する。
論文 参考訳(メタデータ) (2022-08-22T16:36:32Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Compound Prototype Matching for Few-shot Action Recognition [29.55674018426053]
アクション認識は,少数のラベル付きトレーニングサンプルのみを用いて,新しいアクションクラスを認識することを目的としている。
本稿では,まず,各映像をグローバルプロトタイプ群と集中プロトタイプ群からなる複合プロトタイプ群にまとめる手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T13:17:38Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Universal-Prototype Augmentation for Few-Shot Object Detection [128.4592084104352]
Few-shot Object Detection (FSOD)は、ラベル付きサンプルの少ない新しいオブジェクト検出のパフォーマンスを強化することを目的とする。
少数のサンプルの制約を緩和するため、新しいオブジェクトの学習機能の一般化能力の向上が重要な役割を果たす。
我々は,すべての対象カテゴリから学習した新しいプロトタイプ,すなわちユニバーサルプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-03-01T15:35:36Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。