論文の概要: Universal-to-Specific Framework for Complex Action Recognition
- arxiv url: http://arxiv.org/abs/2007.06149v1
- Date: Mon, 13 Jul 2020 01:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:09:43.720163
- Title: Universal-to-Specific Framework for Complex Action Recognition
- Title(参考訳): 複合行動認識のためのユニバーサル・ツー・スペクティフィック・フレームワーク
- Authors: Peisen Zhao, Lingxi Xie, Ya Zhang, Qi Tian
- Abstract要約: 本稿では,複雑な行動認識のためのU2Sフレームワークを提案する。
U2Sフレームワークは、ユニバーサルネットワーク、カテゴリ固有のネットワーク、マスクネットワークという3つのワークで構成されている。
さまざまなベンチマークデータセットの実験では、U2Sフレームワークの有効性が示されている。
- 参考スコア(独自算出の注目度): 114.78468658086572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based action recognition has recently attracted much attention in the
field of computer vision. To solve more complex recognition tasks, it has
become necessary to distinguish different levels of interclass variations.
Inspired by a common flowchart based on the human decision-making process that
first narrows down the probable classes and then applies a "rethinking" process
for finer-level recognition, we propose an effective universal-to-specific
(U2S) framework for complex action recognition. The U2S framework is composed
of three subnetworks: a universal network, a category-specific network, and a
mask network. The universal network first learns universal feature
representations. The mask network then generates attention masks for confusing
classes through category regularization based on the output of the universal
network. The mask is further used to guide the category-specific network for
class-specific feature representations. The entire framework is optimized in an
end-to-end manner. Experiments on a variety of benchmark datasets, e.g., the
Something-Something, UCF101, and HMDB51 datasets, demonstrate the effectiveness
of the U2S framework; i.e., U2S can focus on discriminative spatiotemporal
regions for confusing categories. We further visualize the relationship between
different classes, showing that U2S indeed improves the discriminability of
learned features. Moreover, the proposed U2S model is a general framework and
may adopt any base recognition network.
- Abstract(参考訳): 映像に基づく行動認識はコンピュータビジョンの分野で最近注目を集めている。
より複雑な認識課題を解決するためには、クラス間変異の異なるレベルを区別する必要がある。
ヒューマン意思決定プロセスに基づく共通のフローチャートに着想を得て,まず確率クラスを絞り込み,その後,より詳細な認識のための「再考」プロセスを適用し,複雑なアクション認識のための効果的なu2sフレームワークを提案する。
u2sフレームワークは、ユニバーサルネットワーク、カテゴリ固有ネットワーク、マスクネットワークの3つのサブネットワークで構成されている。
ユニバーサルネットワークはまず普遍的特徴表現を学習する。
マスクネットワークは、ユニバーサルネットワークの出力に基づいてカテゴリの正規化を通じてクラスを混乱させるための注意マスクを生成する。
マスクはさらに、クラス固有の特徴表現のカテゴリ固有のネットワークをガイドするために使用される。
フレームワーク全体がエンドツーエンドで最適化されている。
様々なベンチマークデータセット、例えば、Something、UCF101、HMDB51データセットの実験は、U2Sフレームワークの有効性を示している。
さらに、異なるクラス間の関係を可視化し、U2Sが実際に学習した特徴の識別性を向上させることを示す。
さらに、提案したU2Sモデルは一般的なフレームワークであり、任意のベース認識ネットワークを採用することができる。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts [10.262029691744921]
少ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャであるLabel Anythingを紹介します。
Label Anythingは、クラス毎に必要最小限の例で、複数のクラスにまたがる顕著な一般化性を示す。
包括的実験検証、特にCOCO-20i$ベンチマークにおける最先端の結果の達成は、Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものです。
論文 参考訳(メタデータ) (2024-07-02T09:08:06Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - All Grains, One Scheme (AGOS): Learning Multi-grain Instance
Representation for Aerial Scene Classification [31.412401135677744]
本稿では,これらの課題に対処するための新しい枠組みである1つのスキーム(AGOS)を提案する。
マルチグラインド認識モジュール(MGP)、マルチブランチマルチインスタンス表現モジュール(MBMIR)、自己整合セマンティックフュージョン(SSF)モジュールで構成される。
当社のAGOSは柔軟で,既存のCNNにプラグイン・アンド・プレイで容易に対応できる。
論文 参考訳(メタデータ) (2022-05-06T17:10:44Z) - Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector [26.89763840782029]
Zero-shot Learning (ZSL) は、見えないクラスからオブジェクトを認識することを目的としている。
既存の多くの作品における知識伝達は、1)広く使われている視覚的特徴がグローバルなものであるが、意味的属性と完全に一致していないという事実から、主に制限されている。
最初の2つの制約に対処するセマンティック・ダイバーシティ・トランスファー・ネットワーク(SetNet)を提案し、1)マルチアテンションアーキテクチャとダイバーシティ・レギュレータを提案し、セマンティック属性とより整合した複数の局所視覚特徴を学習し、2)幾何学的に多様な局所特徴を入力として取り込むプロジェクタアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-03-17T01:31:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Group Based Deep Shared Feature Learning for Fine-grained Image
Classification [31.84610555517329]
共有された特徴を明示的にモデル化し、その効果を除去し、拡張された分類結果を得るための新しいディープネットワークアーキテクチャを提案する。
我々はこのフレームワークをグループベースのDeep Shared Feature Learning (GSFL)と呼び、学習したネットワークをGSFL-Netと呼ぶ。
特殊オートエンコーダの重要な利点は、多用途であり、最先端のきめ細かい特徴抽出モデルと組み合わせて、それらと一緒にトレーニングすることで、パフォーマンスを直接改善できる点である。
論文 参考訳(メタデータ) (2020-04-04T00:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。