論文の概要: HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition
- arxiv url: http://arxiv.org/abs/2301.03330v1
- Date: Mon, 9 Jan 2023 13:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:19:01.710634
- Title: HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition
- Title(参考訳): hyrsm++: マイナショット動作認識のためのハイブリッド関係誘導時間セットマッチング
- Authors: Xiang Wang, Shiwei Zhang, Zhiwu Qing, Zhengrong Zuo, Changxin Gao,
Rong Jin, Nong Sang
- Abstract要約: そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 51.2715005161475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent attempts mainly focus on learning deep representations for each video
individually under the episodic meta-learning regime and then performing
temporal alignment to match query and support videos. However, they still
suffer from two drawbacks: (i) learning individual features without considering
the entire task may result in limited representation capability, and (ii)
existing alignment strategies are sensitive to noises and misaligned instances.
To handle the two limitations, we propose a novel Hybrid Relation guided
temporal Set Matching (HyRSM++) approach for few-shot action recognition. The
core idea of HyRSM++ is to integrate all videos within the task to learn
discriminative representations and involve a robust matching technique. To be
specific, HyRSM++ consists of two key components, a hybrid relation module and
a temporal set matching metric. Given the basic representations from the
feature extractor, the hybrid relation module is introduced to fully exploit
associated relations within and cross videos in an episodic task and thus can
learn task-specific embeddings. Subsequently, in the temporal set matching
metric, we carry out the distance measure between query and support videos from
a set matching perspective and design a Bi-MHM to improve the resilience to
misaligned instances. In addition, we explicitly exploit the temporal coherence
in videos to regularize the matching process. Furthermore, we extend the
proposed HyRSM++ to deal with the more challenging semi-supervised few-shot
action recognition and unsupervised few-shot action recognition tasks.
Experimental results on multiple benchmarks demonstrate that our method
achieves state-of-the-art performance under various few-shot settings. The
source code is available at
https://github.com/alibaba-mmai-research/HyRSMPlusPlus.
- Abstract(参考訳): 最近の試みは主に、エピソジックなメタ学習環境下で個々のビデオの深い表現を学習し、クエリとサポートビデオのマッチングのために時間的アライメントを実行することに焦点を当てている。
しかし、まだ2つの欠点がある。
(i)タスク全体を考慮せずに個々の特徴を学習すると、表現能力が制限される場合がある。
(II)既存のアライメント戦略はノイズや不整合インスタンスに敏感である。
そこで,この2つの制約に対処するために,新たなハイブリッド関係誘導時間セットマッチング(hyrsm++)アプローチを提案する。
HyRSM++の中核となる考え方は、すべての動画をタスクに統合して識別表現を学習し、堅牢なマッチング技術を含むことである。
具体的には、HyRSM++は2つのキーコンポーネント、ハイブリッドリレーションモジュールと時間セットマッチングメトリックで構成される。
特徴抽出器からの基本的な表現を考えると、ハイブリッド関係モジュールは、エピソディックタスク内の関連関係とクロスビデオを完全に活用するために導入され、タスク固有の埋め込みを学習することができる。
その後、時間的セットマッチング尺度において、セットマッチングの観点から、クエリとサポートビデオ間の距離測定を行い、Bi-MHMを設計し、不整合インスタンスに対するレジリエンスを向上させる。
さらに,映像の時間的コヒーレンスを明示的に活用し,マッチングプロセスを定式化する。
さらに,提案したHyRSM++を拡張して,より難易度の高い半教師付き小ショットアクション認識と教師なし小ショットアクション認識タスクに対処する。
複数のベンチマークによる実験結果から,本手法は様々な撮影条件下での最先端性能を実現することが示された。
ソースコードはhttps://github.com/alibaba-mmai-research/hyrsmplusplusで入手できる。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition [36.426688592783975]
MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTモジュールは、チャネルと時間領域の機能相互作用を通じて、速度調整されたテキスト情報をビデオ機能に注入する。
論文 参考訳(メタデータ) (2024-05-03T13:10:16Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection [9.032057312774564]
自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、非常に関連性の高い2つのタスクである。
MRとHDを共同で解くために、DETRベースのネットワークの構築にいくつかの方法が注がれている。
MRとHDの相反性を探索するDETR(TR-DETR)に基づくタスク相互変換器を提案する。
論文 参考訳(メタデータ) (2024-01-04T14:55:57Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。