論文の概要: Improving Transfer Learning with a Dual Image and Video Transformer for
Multi-label Movie Trailer Genre Classification
- arxiv url: http://arxiv.org/abs/2210.07983v4
- Date: Wed, 29 Mar 2023 15:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:33:23.211978
- Title: Improving Transfer Learning with a Dual Image and Video Transformer for
Multi-label Movie Trailer Genre Classification
- Title(参考訳): マルチレーベル映画トレーラージャンル分類のためのデュアルイメージとビデオトランスフォーマによる転送学習の改善
- Authors: Ricardo Montalvo-Lezama, Berenice Montalvo-Lezama and Gibran
Fuentes-Pineda
- Abstract要約: マルチラベル映画トレーサ・ジェネア(MT)への画像ネットの空間的・時間的表現の転送可能性について検討する。
本稿では,映像・映像変換アーキテクチャ(DIViTA)を提案する。
以上の結果から,ImageNet と Kinetics のどちらかが比較的Traceers12k に変換可能であることが示された。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we study the transferability of ImageNet spatial and Kinetics
spatio-temporal representations to multi-label Movie Trailer Genre
Classification (MTGC). In particular, we present an extensive evaluation of the
transferability of ConvNet and Transformer models pretrained on ImageNet and
Kinetics to Trailers12k, a new manually-curated movie trailer dataset composed
of 12,000 videos labeled with 10 different genres and associated metadata. We
analyze different aspects that can influence transferability, such as frame
rate, input video extension, and spatio-temporal modeling. In order to reduce
the spatio-temporal structure gap between ImageNet/Kinetics and Trailers12k, we
propose Dual Image and Video Transformer Architecture (DIViTA), which performs
shot detection so as to segment the trailer into highly correlated clips,
providing a more cohesive input for pretrained backbones and improving
transferability (a 1.83% increase for ImageNet and 3.75% for Kinetics). Our
results demonstrate that representations learned on either ImageNet or Kinetics
are comparatively transferable to Trailers12k. Moreover, both datasets provide
complementary information that can be combined to improve classification
performance (a 2.91% gain compared to the top single pretraining).
Interestingly, using lightweight ConvNets as pretrained backbones resulted in
only a 3.46% drop in classification performance compared with the top
Transformer while requiring only 11.82% of its parameters and 0.81% of its
FLOPS.
- Abstract(参考訳): 本稿では,マルチラベル映画トレーサゲンレ分類 (MTGC) への画像ネット空間空間と速度空間の時空間表現の転送可能性について検討する。
具体的には,10種類のジャンルと関連メタデータをラベル付けした12,000本の動画を手作業で編集した映画トレーラーデータセットであるImageNetとKineeticsをTraceers12kに事前訓練したConvNetとTransformerモデルの転送可能性について,広範囲に評価する。
フレームレートや入力ビデオ拡張,時空間モデリングなど,転送性に影響を与えるさまざまな側面を分析した。
本研究では,imagenet/kineticsとtreaks12kの時空間構造ギャップを低減するために,トレーラーを高度に相関したクリップに分割し,事前学習されたバックボーンに対するより結束的な入力を提供し,転送性の向上(imagenetでは1.83%,kineticsでは3.75%)を実現するために,ショット検出を行うdual image and video transformer architecture (divita)を提案する。
その結果,ImageNet あるいは Kinetics で学んだ表現は,Traceers12k に比較的転送可能であることがわかった。
さらに、両方のデータセットは、組み合わせて分類性能を向上させる(トップシングルプリトレーニングと比較して2.91%の利得)補完的な情報を提供する。
興味深いことに、プリトレーニングされたバックボーンとして軽量なconvnetを使用すると、トップトランスフォーマーに比べて分類性能が3.46%低下するだけでなく、パラメータの11.82%とフラップの0.81%しか必要としない。
関連論文リスト
- SpectFormer: Frequency and Attention is what you need in a Vision
Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:27:17Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Co-training Transformer with Videos and Images Improves Action
Recognition [49.160505782802886]
アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
論文 参考訳(メタデータ) (2021-12-14T05:41:39Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。