論文の概要: Hybrid Relation Guided Set Matching for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2204.13423v1
- Date: Thu, 28 Apr 2022 11:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:52:41.622328
- Title: Hybrid Relation Guided Set Matching for Few-shot Action Recognition
- Title(参考訳): ファウショット行動認識のためのハイブリッド関係案内セットマッチング
- Authors: Xiang Wang, Shiwei Zhang, Zhiwu Qing, Mingqian Tang, Zhengrong Zuo,
Changxin Gao, Rong Jin, Nong Sang
- Abstract要約: 本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 51.3308583226322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current few-shot action recognition methods reach impressive performance by
learning discriminative features for each video via episodic training and
designing various temporal alignment strategies. Nevertheless, they are limited
in that (a) learning individual features without considering the entire task
may lose the most relevant information in the current episode, and (b) these
alignment strategies may fail in misaligned instances. To overcome the two
limitations, we propose a novel Hybrid Relation guided Set Matching (HyRSM)
approach that incorporates two key components: hybrid relation module and set
matching metric. The purpose of the hybrid relation module is to learn
task-specific embeddings by fully exploiting associated relations within and
cross videos in an episode. Built upon the task-specific features, we
reformulate distance measure between query and support videos as a set matching
problem and further design a bidirectional Mean Hausdorff Metric to improve the
resilience to misaligned instances. By this means, the proposed HyRSM can be
highly informative and flexible to predict query categories under the few-shot
settings. We evaluate HyRSM on six challenging benchmarks, and the experimental
results show its superiority over the state-of-the-art methods by a convincing
margin. Project page: https://hyrsm-cvpr2022.github.io/.
- Abstract(参考訳): 現在の数発のアクション認識手法は、エピソードトレーニングを通じて各ビデオの識別的特徴を学習し、様々な時間的アライメント戦略を設計することにより、印象的なパフォーマンスに達する。
それにもかかわらず、それらは制限されています
(a)タスク全体を考慮せずに個々の特徴を学ぶことは、現在のエピソードで最も重要な情報を失う可能性がある。
b) これらのアライメント戦略は、不一致のインスタンスで失敗する可能性がある。
この2つの制限を克服するために、ハイブリッド関係モジュールとセットマッチングメトリックの2つの重要なコンポーネントを組み込んだ、新しいハイブリッド関係ガイドセットマッチング(HyRSM)アプローチを提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
タスク特有の特徴に基づいて,問合せとサポートビデオ間の距離測定をセットマッチング問題として再構成し,さらに双方向平均ハウスドルフ計量を設計すれば,不整合インスタンスに対するレジリエンスが向上する。
この方法では、提案するhyrsmは極めて有益で、最小限の設定でクエリカテゴリを予測するのに柔軟である。
我々は6つの難易度ベンチマークにおけるhyrsmの評価を行い, 実験結果から, 最先端の手法よりも優れていることを説得力のあるマージンで示している。
プロジェクトページ: https://hyrsm-cvpr2022.github.io/
関連論文リスト
- Can Custom Models Learn In-Context? An Exploration of Hybrid Architecture Performance on In-Context Learning Tasks [2.2665690736508894]
In-Context Learning (ICL) は、パラメータ更新を必要とせずに、プロンプトシーケンスを通じてタスク学習が行われる現象である。
GPT-2 と LLaMa と LlaMa と Mamba のアーキテクチャ的差異の影響について検討した。
そこで本研究では,特定のタスクにおけるモデル全体の性能を示すスカラーメトリックである「ICL回帰スコア」を提案する。
論文 参考訳(メタデータ) (2024-11-06T14:25:05Z) - Two-stream joint matching method based on contrastive learning for
few-shot action recognition [6.657975899342652]
コントラスト学習(TSJM)に基づく2ストリーム共同マッチング手法を提案する。
MCLの目的は、モーダル間の相互情報関係を広範囲に調査することである。
JMMは、上記のビデオマッチング問題を同時に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-08T13:37:15Z) - Boosting Few-shot Action Recognition with Graph-guided Hybrid Matching [32.55434403836766]
グラフ誘導ハイブリッドマッチングを用いた新しいフレームワークGgHMを提案する。
クラスプロトタイプ構築中にグラフニューラルネットワークについて学ぶ。
次に、フレームレベルとコアレベルのマッチングを組み合わせたハイブリッドマッチング戦略を設計し、ビデオの分類を行う。
論文 参考訳(メタデータ) (2023-08-18T07:07:36Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Rethinking the Metric in Few-shot Learning: From an Adaptive
Multi-Distance Perspective [30.30691830639013]
距離の異なる指標の寄与について検討し,適応型融合方式を提案する。
アダプティブ・メトリックス・モジュール(AMM)に基づいて、AMMやグローバル・アダプティブ・ロス(GAL)を含む数発の分類フレームワークであるAMTNetを設計する。
実験では,提案したAMMは実測値の融合モジュールよりも2%高い性能を達成し,AMTNetは複数のベンチマークデータセットで最先端の性能を向上する。
論文 参考訳(メタデータ) (2022-11-02T05:30:03Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。