論文の概要: A Large-scale Study of Spatiotemporal Representation Learning with a New
Benchmark on Action Recognition
- arxiv url: http://arxiv.org/abs/2303.13505v2
- Date: Fri, 18 Aug 2023 22:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:23:39.735301
- Title: A Large-scale Study of Spatiotemporal Representation Learning with a New
Benchmark on Action Recognition
- Title(参考訳): 行動認識の新しいベンチマークを用いた時空間表現学習の大規模研究
- Authors: Andong Deng, Taojiannan Yang, Chen Chen
- Abstract要約: BEARは5つのカテゴリ(異常、ジェスチャー、毎日、スポーツ、教育)に分類される18のビデオデータセットのコレクションである。
教師付き学習と自己指導型学習の両方によって事前訓練された6つの共通時間モデルについて、徹底的に評価した。
我々の観察では、現在の最先端技術は、実世界のアプリケーションに近いデータセット上でのハイパフォーマンスを確実に保証できないことを示唆している。
- 参考スコア(独自算出の注目度): 14.226201098201244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of building a benchmark (suite of datasets) is to provide a unified
protocol for fair evaluation and thus facilitate the evolution of a specific
area. Nonetheless, we point out that existing protocols of action recognition
could yield partial evaluations due to several limitations. To comprehensively
probe the effectiveness of spatiotemporal representation learning, we introduce
BEAR, a new BEnchmark on video Action Recognition. BEAR is a collection of 18
video datasets grouped into 5 categories (anomaly, gesture, daily, sports, and
instructional), which covers a diverse set of real-world applications. With
BEAR, we thoroughly evaluate 6 common spatiotemporal models pre-trained by both
supervised and self-supervised learning. We also report transfer performance
via standard finetuning, few-shot finetuning, and unsupervised domain
adaptation. Our observation suggests that current state-of-the-art cannot
solidly guarantee high performance on datasets close to real-world
applications, and we hope BEAR can serve as a fair and challenging evaluation
benchmark to gain insights on building next-generation spatiotemporal learners.
Our dataset, code, and models are released at:
https://github.com/AndongDeng/BEAR
- Abstract(参考訳): ベンチマーク(データセットの適合)を構築する目標は、公正な評価のための統一されたプロトコルを提供することで、特定の領域の進化を促進することである。
それでも,既存の行動認識プロトコルでは,いくつかの制限により部分的な評価が可能であることを指摘する。
時空間表現学習の有効性を総合的に調査するため,ビデオ行動認識における新しいベンチマークであるBEARを導入する。
BEARは5つのカテゴリ(異常、ジェスチャー、毎日、スポーツ、インストラクショナル)に分類される18のビデオデータセットのコレクションで、さまざまな現実世界のアプリケーションをカバーする。
BEARでは,教師付き学習と自己指導型学習の両方で事前学習した6つの時空間モデルについて,徹底的に評価した。
また、標準的な微調整、少数ショット微調整、教師なしドメイン適応による転送性能を報告する。
我々の観察では、現在の最先端技術は現実世界のアプリケーションに近いデータセットで高い性能を確実に保証できないことを示唆しており、BEARが公正かつ挑戦的な評価ベンチマークとして機能し、次世代の時空間学習者構築に関する洞察を得ることができることを願っている。
私たちのデータセット、コード、モデルは、https://github.com/AndongDeng/BEARでリリースされます。
関連論文リスト
- SegPrompt: Boosting Open-world Segmentation via Category-level Prompt
Learning [49.17344010035996]
オープンワールドインスタンスセグメンテーション(OWIS)モデルは、クラスに依存しない方法で未知のオブジェクトを検出する。
以前のOWISは、未知のオブジェクトに一般化するモデルの能力を維持するために、トレーニング中のカテゴリ情報を完全に消去するアプローチだった。
そこで本研究では,モデルのクラスに依存しないセグメンテーション能力を改善するためにカテゴリ情報を利用するSegPromptと呼ばれる新しいトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T11:25:39Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。