論文の概要: Rethinking matching-based few-shot action recognition
- arxiv url: http://arxiv.org/abs/2303.16084v1
- Date: Tue, 28 Mar 2023 15:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:30:19.663220
- Title: Rethinking matching-based few-shot action recognition
- Title(参考訳): マッチングに基づく少数ショット行動認識の再考
- Authors: Juliette Bertrand, Yannis Kalantidis, Giorgos Tolias
- Abstract要約: 新しいアクションクラスを認識することは、時間的情報から恩恵を受ける。
この手法に着想を得たChamfer++を提案する。
- 参考スコア(独自算出の注目度): 20.193879158795724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition, i.e. recognizing new action classes given only a
few examples, benefits from incorporating temporal information. Prior work
either encodes such information in the representation itself and learns
classifiers at test time, or obtains frame-level features and performs pairwise
temporal matching. We first evaluate a number of matching-based approaches
using features from spatio-temporal backbones, a comparison missing from the
literature, and show that the gap in performance between simple baselines and
more complicated methods is significantly reduced. Inspired by this, we propose
Chamfer++, a non-temporal matching function that achieves state-of-the-art
results in few-shot action recognition. We show that, when starting from
temporal features, our parameter-free and interpretable approach can outperform
all other matching-based and classifier methods for one-shot action recognition
on three common datasets without using temporal information in the matching
stage. Project page: https://jbertrand89.github.io/matching-based-fsar
- Abstract(参考訳): 時間的情報の導入によるメリットとして、いくつかの例を挙げて、新しいアクションクラスを認識すること。
以前の作業では、表現自体にそのような情報をエンコードし、テスト時に分類器を学習するか、フレームレベルの特徴を取得してペアワイズ時間マッチングを行う。
まず,時空間的バックボーンの特徴を用いたマッチングに基づくアプローチを数多く評価し,文献から欠落した結果から,単純なベースラインとより複雑なメソッドのパフォーマンスの差が著しく減少することを示した。
そこで,我々はchamfer++を提案する。chamfer++は非時間マッチング関数である。
時間的特徴から始めると、パラメータフリーかつ解釈可能なアプローチは、マッチング段階で時間的情報を用いることなく、3つの共通データセット上でのワンショットアクション認識のための他のマッチングベースおよび分類法よりも優れていることを示す。
プロジェクトページ: https://jbertrand89.github.io/matching-based-fsar
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z) - Few-shot Action Recognition with Implicit Temporal Alignment and Pair
Similarity Optimization [37.010005936995334]
ほとんどラベル付きサンプルのない新しいクラスからインスタンスを認識することを目的としていない。
ビデオベースの数発のアクション認識は、まだ十分に調査されておらず、まだ挑戦的だ。
本稿では,(1)少数ショットの動作認識アルゴリズムの性能を評価するための具体的設定,(2)ビデオレベルの類似性比較のための暗黙的なシーケンスアライメントアルゴリズム,(3)限定データを用いたペア類似性最適化のための複数ショット学習における高度な損失について述べる。
論文 参考訳(メタデータ) (2020-10-13T07:56:06Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。