論文の概要: Towards Training Stronger Video Vision Transformers for
EPIC-KITCHENS-100 Action Recognition
- arxiv url: http://arxiv.org/abs/2106.05058v1
- Date: Wed, 9 Jun 2021 13:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:08:49.530115
- Title: Towards Training Stronger Video Vision Transformers for
EPIC-KITCHENS-100 Action Recognition
- Title(参考訳): EPIC-KITCHENS-100行動認識のための強力な映像変換器の訓練に向けて
- Authors: Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang,
Jianwen Jiang, Zhurong Xia, Mingqian Tang, Nong Sang, Marcelo H. Ang Jr
- Abstract要約: EPIC-KITCHENS-100行動認識データセット上で,より強力な映像ビジョン変換器をトレーニングするための実験結果を示す。
単一のViViTモデルはEPIC-KITCHENS-100データセットの検証セットで47.4%のパフォーマンスを達成する。
ビデオトランスフォーマーは,動詞-名詞行動予測タスクにおいて,名詞を予測するのに特に優れていることがわかった。
- 参考スコア(独自算出の注目度): 27.760120524736678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent surge in the research of vision transformers, they have
demonstrated remarkable potential for various challenging computer vision
applications, such as image recognition, point cloud classification as well as
video understanding. In this paper, we present empirical results for training a
stronger video vision transformer on the EPIC-KITCHENS-100 Action Recognition
dataset. Specifically, we explore training techniques for video vision
transformers, such as augmentations, resolutions as well as initialization,
etc. With our training recipe, a single ViViT model achieves the performance of
47.4\% on the validation set of EPIC-KITCHENS-100 dataset, outperforming what
is reported in the original paper by 3.4%. We found that video transformers are
especially good at predicting the noun in the verb-noun action prediction task.
This makes the overall action prediction accuracy of video transformers notably
higher than convolutional ones. Surprisingly, even the best video transformers
underperform the convolutional networks on the verb prediction. Therefore, we
combine the video vision transformers and some of the convolutional video
networks and present our solution to the EPIC-KITCHENS-100 Action Recognition
competition.
- Abstract(参考訳): 近年の視覚変換器の研究の急増により、画像認識、ポイントクラウド分類、ビデオ理解など、様々な挑戦的なコンピュータビジョン応用の可能性が示された。
本稿では,epic-kitchens-100アクション認識データセット上でより強固な映像ビジョントランスフォーマーをトレーニングする実験結果を示す。
具体的には,拡張や解像度,初期化といった映像ビジョントランスフォーマーのトレーニング技術について検討する。
トレーニングレシピでは、EPIC-KITCHENS-100データセットの検証セット上で、単一のViViTモデルで47.4\%のパフォーマンスを実現し、元の論文で報告された結果よりも3.4%向上した。
ビデオトランスフォーマーは動詞-名詞行動予測タスクにおける名詞の予測に特に優れていることがわかった。
これにより、ビデオトランスの全体的な動作予測精度は、畳み込みよりも顕著に高い。
驚くべきことに、最高のビデオトランスフォーマーでさえ、動詞予測の畳み込みネットワークを過小評価している。
そこで我々は,ビデオビジョントランスフォーマーといくつかの畳み込みビデオネットワークを組み合わせることで,EPIC-KITCHENS-100 Action Recognitionコンペティションにソリューションを提示する。
関連論文リスト
- On Convolutional Vision Transformers for Yield Prediction [0.0]
コンボリューション・ビジョン・トランスフォーマー (CvT) は、現在多くのビジョンタスクにおいて最先端の結果を達成しているビジョン・トランスフォーマーを評価するためにテストされている。
XGBoostやCNNなど,広くテストされているメソッドよりもパフォーマンスが悪くなるが,Transformerが収量予測を改善する可能性を示唆している。
論文 参考訳(メタデータ) (2024-02-08T10:50:12Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。