論文の概要: An Image Classifier Can Suffice Video Understanding
- arxiv url: http://arxiv.org/abs/2106.14104v1
- Date: Sat, 26 Jun 2021 22:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 06:45:45.987375
- Title: An Image Classifier Can Suffice Video Understanding
- Title(参考訳): 画像分類器はビデオ理解に十分です
- Authors: Quanfu Fan, Chun-Fu (Richard) Chen, Rameswar Panda
- Abstract要約: 画像だけでは時間的モデリングなしでビデオ理解に十分であることを示す。
4つの公開データセット上で高い有望な性能を示すことによって、そのようなアイデアが実現可能であることを実証する。
- 参考スコア(独自算出の注目度): 19.764934919027585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new perspective on video understanding by casting the video
recognition problem as an image recognition task. We show that an image
classifier alone can suffice for video understanding without temporal modeling.
Our approach is simple and universal. It composes input frames into a super
image to train an image classifier to fulfill the task of action recognition,
in exactly the same way as classifying an image. We prove the viability of such
an idea by demonstrating strong and promising performance on four public
datasets including Kinetics400, Something-to-something (V2), MiT and Jester,
using a recently developed vision transformer. We also experiment with the
prevalent ResNet image classifiers in computer vision to further validate our
idea. The results on Kinetics400 are comparable to some of the best-performed
CNN approaches based on spatio-temporal modeling. our code and models will be
made available at https://github.com/IBM/sifar-pytorch.
- Abstract(参考訳): 本稿では,映像認識問題を画像認識タスクとしてキャストすることで,映像理解の新しい視点を提案する。
画像分類器だけでは時間的モデリングなしで映像理解に十分であることを示す。
私たちのアプローチはシンプルで普遍的です。
入力フレームをスーパーイメージに合成し、画像分類器を訓練してアクション認識のタスクを、画像の分類とまったく同じ方法で達成する。
我々は,最近開発された視覚変換器を用いて,Kinetics400,Some-to-something (V2),MiT,Jesterの4つの公開データセットに対して,強靭かつ有望な性能を示すことによって,そのようなアイデアの実現可能性を証明する。
また、コンピュータビジョンにおける一般的なResNet画像分類器を用いて、このアイデアをさらに検証した。
Kinetics400の結果は、時空間モデルに基づく最高のパフォーマンスのCNNアプローチに匹敵するものである。
私たちのコードとモデルはhttps://github.com/IBM/sifar-pytorch.comで公開されます。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。