論文の概要: "Knights": First Place Submission for VIPriors21 Action Recognition
Challenge at ICCV 2021
- arxiv url: http://arxiv.org/abs/2110.07758v1
- Date: Thu, 14 Oct 2021 22:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:39:38.378616
- Title: "Knights": First Place Submission for VIPriors21 Action Recognition
Challenge at ICCV 2021
- Title(参考訳): 夜」:ICCV2021におけるVIPriors21アクション認識チャレンジの初出場
- Authors: Ishan Dave, Naman Biyani, Brandon Clark, Rohit Gupta, Yogesh Rawat and
Mubarak Shah
- Abstract要約: 本稿では,Kineetics400ViPriorsの小さなサブセット上での動作認識タスクを解決するために,「夜」を提示する。
提案手法は,最先端の時間的コントラスト型自己教師型事前学習,ビデオトランスフォーマーモデル,光学フローのモダリティの3つの構成要素を有する。
- 参考スコア(独自算出の注目度): 39.990872080183884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents our approach "Knights" to solve the action
recognition task on a small subset of Kinetics-400 i.e. Kinetics400ViPriors
without using any extra-data. Our approach has 3 main components:
state-of-the-art Temporal Contrastive self-supervised pretraining, video
transformer models, and optical flow modality. Along with the use of standard
test-time augmentation, our proposed solution achieves 73% on
Kinetics400ViPriors test set, which is the best among all of the other entries
Visual Inductive Priors for Data-Efficient Computer Vision's Action Recognition
Challenge, ICCV 2021.
- Abstract(参考訳): 本研究では,Kineetics-400 i.e. Kinetics400ViPriorsの小さなサブセットにおける動作認識タスクを,外部データを用いることなく解決する手法として,Knightsを提案する。
我々のアプローチには3つの主要な要素がある:最先端の時間的コントラスト 自己教師付き事前訓練、ビデオトランスフォーマーモデル、光フローモダリティ。
提案手法は, 標準テスト時間拡張法と合わせて, kinetics400vipriors テストセット上で 73% を達成し, データ効率の良いコンピュータビジョンの行動認識課題であるiccv 2021 の視覚インダクティブ・プリエントとして最良である。
関連論文リスト
- DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - OCT-SelfNet: A Self-Supervised Framework with Multi-Modal Datasets for
Generalized and Robust Retinal Disease Detection [2.3349787245442966]
本研究は、眼疾患を検出するための自己教師付き堅牢な機械学習フレームワークであるOCT-SelfNetに貢献する。
本手法は,自己指導型事前学習と教師型微調整を組み合わせた2段階学習手法を用いてこの問題に対処する。
AUC-PR測定では,提案手法は42%を超え,ベースラインに比べて10%以上の性能向上を示した。
論文 参考訳(メタデータ) (2024-01-22T20:17:14Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - The Third Place Solution for CVPR2022 AVA Accessibility Vision and
Autonomy Challenge [12.37168905253371]
本稿では,CVPR2022 AVA Challengeへの提出の技術的詳細を紹介する。
まず,本課題に対する適切なモデルとデータ拡張戦略の導入を支援するために,いくつかの実験を行った。
次に,性能向上のための効果的なトレーニング戦略を適用した。
論文 参考訳(メタデータ) (2022-06-28T03:05:37Z) - The Second Place Solution for ICCV2021 VIPriors Instance Segmentation
Challenge [6.087398773657721]
データ効率のよいコンピュータビジョンのためのビジュアルインダクティブプライオリティ(VIPriors)は、競合に対して、データ不足の環境でモデルをゼロからトレーニングするように求めている。
ICCV 2021 VIPriorsインスタンスセグメンテーションチャレンジの技術的詳細を紹介する。
ICCV 2021 VIPriors インスタンスセグメンテーションの試験セットで 40.2%AP@0.50:0.95 を達成することができる。
論文 参考訳(メタデータ) (2021-12-02T09:23:02Z) - A Baseline Framework for Part-level Action Parsing and Action
Recognition [67.38737952295504]
本報告では,ICCV DeeperAction Workshop 2021 におけるパートレベル動作解析における Kinetics-TPS Track の2位解について紹介する。
我々のエントリは、おもにYOLOF、人間のポーズ推定のためのHRNet、ビデオレベルのアクション認識とフレームレベルの部分状態解析のためのCSNに基づいています。
競技では,Kinetics-TPSのテストセットで61.37%のmAPを達成した。
論文 参考訳(メタデータ) (2021-10-07T12:04:59Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - 2nd Place Solution to ECCV 2020 VIPriors Object Detection Challenge [24.368684444351068]
我々は、最先端のデータ強化戦略、モデル設計、および後処理アンサンブル手法を用いることで、データ不足の難しさを克服し、競争結果を得ることができることを示す。
当社の全体的な検出システムは,COCO 2017の検証セット上で,事前トレーニングや移行学習の重み付けなしで,わずか10Kのトレーニングイメージを使用して36.6$%のAPを達成している。
論文 参考訳(メタデータ) (2020-07-17T09:21:29Z) - 1st place solution for AVA-Kinetics Crossover in AcitivityNet Challenge
2020 [43.81722332148899]
本報告では,ActivityNet Challenge 2020において,行動時間的ローカライゼーショントラックであるAVA-Kineticsの勝利について紹介する。
新しいAVA-Kineticsデータセットの技術詳細と実験結果について述べる。
AVA-キネティクスの試験セットで39.62 mAPを達成したが、これは他の項目よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2020-06-16T12:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。