論文の概要: On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition
- arxiv url: http://arxiv.org/abs/2209.07474v1
- Date: Thu, 15 Sep 2022 17:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:24:02.273052
- Title: On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition
- Title(参考訳): 低ラベルビデオ認識におけるトランスフォーマーの驚くべき効果について
- Authors: Farrukh Rahman, \"Omer Mubarek, Zsolt Kira
- Abstract要約: ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 18.557920268145818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently vision transformers have been shown to be competitive with
convolution-based methods (CNNs) broadly across multiple vision tasks. The less
restrictive inductive bias of transformers endows greater representational
capacity in comparison with CNNs. However, in the image classification setting
this flexibility comes with a trade-off with respect to sample efficiency,
where transformers require ImageNet-scale training. This notion has carried
over to video where transformers have not yet been explored for video
classification in the low-labeled or semi-supervised settings. Our work
empirically explores the low data regime for video classification and discovers
that, surprisingly, transformers perform extremely well in the low-labeled
video setting compared to CNNs. We specifically evaluate video vision
transformers across two contrasting video datasets (Kinetics-400 and
SomethingSomething-V2) and perform thorough analysis and ablation studies to
explain this observation using the predominant features of video transformer
architectures. We even show that using just the labeled data, transformers
significantly outperform complex semi-supervised CNN methods that leverage
large-scale unlabeled data as well. Our experiments inform our recommendation
that semi-supervised learning video work should consider the use of video
transformers in the future.
- Abstract(参考訳): 近年、視覚トランスフォーマーは、複数の視覚タスクにまたがる畳み込み方式(cnns)と競合することが示されている。
変圧器の制約の少ない帰納バイアスは、CNNと比較して表現能力が大きい。
しかし、画像分類設定では、この柔軟性はサンプル効率に関してトレードオフがあり、トランスフォーマーはイメージネットスケールのトレーニングを必要とする。
この概念は、低ラベルまたは半教師付き設定でビデオ分類のためにトランスフォーマーがまだ検討されていないビデオに引き継がれている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、トランスフォーマーが低ラベルの動画設定においてCNNと比較して非常に優れていることを発見した。
本研究では,2つのコントラスト映像データセット(Kinetics-400およびSomething-V2)の映像ビジョントランスフォーマーを特に評価し,この観察をビデオトランスフォーマーアーキテクチャの主要な特徴を用いて詳細に解析およびアブレーション研究を行った。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
本研究は,半教師付き学習ビデオ作業がビデオトランスフォーマの使用を将来的に考慮すべきことを推奨するものである。
関連論文リスト
- Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Towards Training Stronger Video Vision Transformers for
EPIC-KITCHENS-100 Action Recognition [27.760120524736678]
EPIC-KITCHENS-100行動認識データセット上で,より強力な映像ビジョン変換器をトレーニングするための実験結果を示す。
単一のViViTモデルはEPIC-KITCHENS-100データセットの検証セットで47.4%のパフォーマンスを達成する。
ビデオトランスフォーマーは,動詞-名詞行動予測タスクにおいて,名詞を予測するのに特に優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-09T13:26:02Z) - Gaze Estimation using Transformer [14.26674946195107]
我々は、純粋変換器とハイブリッド変換器の2種類の視覚変換器について考察する。
私たちはまず、人気の高いViTに従い、画像から視線を推定するために純粋なトランスフォーマーを使用します。
一方、我々は畳み込み層を保存し、CNNとトランスフォーマーを統合する。
論文 参考訳(メタデータ) (2021-05-30T04:06:29Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Going deeper with Image Transformers [102.61950708108022]
我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。
深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。
私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
論文 参考訳(メタデータ) (2021-03-31T17:37:32Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。