論文の概要: Adaptive Prototype Model for Attribute-based Multi-label Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2502.12582v1
- Date: Tue, 18 Feb 2025 06:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:04.838637
- Title: Adaptive Prototype Model for Attribute-based Multi-label Few-shot Action Recognition
- Title(参考訳): 属性に基づく多ラベルFew-shot行動認識のための適応型プロトタイプモデル
- Authors: Juefeng Xiao, Tianqi Xiang, Zhigang Tu,
- Abstract要約: 現実世界の行動認識システムでは、より多くの属性を組み込むことで、人間の行動をより包括的に理解できるようになる。
本稿では,人間行動認識のためのアダプティブ属性プロトタイプモデル(AAPM)を提案する。
AAPMは属性に基づく複数ラベルの複数ショットのアクション認識と単一ラベルの少数ショットのアクション認識の両方において、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 11.316708754749103
- License:
- Abstract: In real-world action recognition systems, incorporating more attributes helps achieve a more comprehensive understanding of human behavior. However, using a single model to simultaneously recognize multiple attributes can lead to a decrease in accuracy. In this work, we propose a novel method i.e. Adaptive Attribute Prototype Model (AAPM) for human action recognition, which captures rich action-relevant attribute information and strikes a balance between accuracy and robustness. Firstly, we introduce the Text-Constrain Module (TCM) to incorporate textual information from potential labels, and constrain the construction of different attributes prototype representations. In addition, we explore the Attribute Assignment Method (AAM) to address the issue of training bias and increase robustness during the training process.Furthermore, we construct a new video dataset with attribute-based multi-label called Multi-Kinetics for evaluation, which contains various attribute labels (e.g. action, scene, object, etc.) related to human behavior. Extensive experiments demonstrate that our AAPM achieves the state-of-the-art performance in both attribute-based multi-label few-shot action recognition and single-label few-shot action recognition. The project and dataset are available at an anonymous account https://github.com/theAAPM/AAPM
- Abstract(参考訳): 現実世界の行動認識システムでは、より多くの属性を組み込むことで、人間の行動をより包括的に理解できるようになる。
しかし、複数の属性を同時に認識するために単一のモデルを使用すると、精度が低下する可能性がある。
本研究では,人間行動認識のためのアダプティブ属性プロトタイプモデル(AAPM)を提案する。
まず、潜在的なラベルからのテキスト情報を組み込んだテキスト制約モジュール(TCM)を導入し、異なる属性のプロトタイプ表現の構築を制約する。
また,トレーニングのバイアスの問題に対処し,トレーニング過程の堅牢性を高めるためにAAM(Atribute Assignment Method)を探索し,人的行動に関連する属性ラベル(アクション,シーン,オブジェクトなど)を含む属性ベースのマルチラベルによる評価用ビデオデータセットを構築した。
広汎な実験により,属性に基づく複数ラベルの複数ショットアクション認識と単一ラベルの複数ショットアクション認識の両方において,AAPMが最先端のパフォーマンスを達成することが示された。
プロジェクトとデータセットは匿名アカウント https://github.com/theAAPM/AAPM で利用可能である。
関連論文リスト
- SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm [18.53048511206039]
本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前トレーニングされたCLIPモデルを使用して歩行者機能を抽出し、テキストプロンプトのガイダンスの下で、属性セットをクエリトークンに埋め込む。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながら、モデルが次の属性を思い出すのを防ぐ。
論文 参考訳(メタデータ) (2023-12-04T05:42:56Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual
Information Minimization for Pedestrian Attribute Recognition [10.821982414387525]
そこで本研究では,現在の手法が,データセット分布のシーンやアイデンティティに適合する属性の相互依存性の一般化に実際に苦慮していることを示す。
現実的な場面で頑健なモデルをレンダリングするために,属性不整形特徴学習を提案し,属性の認識が他者の存在に依存しないことを保証する。
論文 参考訳(メタデータ) (2023-07-28T01:34:55Z) - LOWA: Localize Objects in the Wild with Attributes [8.922263691331912]
本稿では,自然界における属性を持つ物体の局所化手法であるLOWAについて述べる。
これは、インスタンスレベルの属性分類の欠如と希少なクラス名によって制限されている、現在のオープン語彙オブジェクト検出器の不足に対処することを目的としている。
論文 参考訳(メタデータ) (2023-05-31T17:21:24Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Label2Label: A Language Modeling Framework for Multi-Attribute Learning [93.68058298766739]
Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。
NLPにおける事前学習言語モデルの成功に触発されたLabel2Labelは、イメージ条件付きマスキング言語モデルを導入した。
我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。
論文 参考訳(メタデータ) (2022-07-18T15:12:33Z) - TransFA: Transformer-based Representation for Face Attribute Evaluation [87.09529826340304]
我々はtextbfTransFA を用いたtextbfattribute 評価のための新しい textbf Transformer 表現を提案する。
提案するTransFAは,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-12T10:58:06Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot
Recognition [27.0842107128122]
属性誘導型アテンションモジュール (AGAM) を設計し, 属性を付加し, より識別的な特徴を学習する。
提案モジュールは,最先端性能を実現するため,単純なメートル法に基づくアプローチを大幅に改善することができる。
論文 参考訳(メタデータ) (2020-09-10T08:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。