論文の概要: Trailers12k: Evaluating Transfer Learning for Movie Trailer Genre
Classification
- arxiv url: http://arxiv.org/abs/2210.07983v1
- Date: Fri, 14 Oct 2022 17:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:40:04.907228
- Title: Trailers12k: Evaluating Transfer Learning for Movie Trailer Genre
Classification
- Title(参考訳): trailers12k: 映画トレーラージャンル分類のための転送学習の評価
- Authors: Ricardo Montalvo-Lezama, Berenice Montalvo-Lezama and Gibran
Fuentes-Pineda
- Abstract要約: マルチラベルトレーサ分類タスクにおけるトランスファー学習について検討する。
本稿では,トレーラを高相関のクリップに分割するショット検出手法を提案する。
その結果、ImageNet または Trailer Genres で学んだ表現は、Traceers12k タスクに相対的に転送可能であることが示された。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transfer learning is a cornerstone for a wide range of computer vision
problems.It has been broadly studied for image analysis tasks. However,
literature for video analysis is scarce and has been mainly focused on
transferring representations learned from ImageNet to human action recognition
tasks. In this paper, we study transfer learning for Multi-label Movie Trailer
Genre Classification (MTGC). In particular, we introduce Trailers12k}, a new
manually-curated movie trailer dataset and evaluate the transferability of
spatial and spatio-temporal representations learned from ImageNet and/or
Kinetics to Trailers12k MTGC. In order to reduce the spatio-temporal structure
gap between the source and target tasks and improve transferability, we propose
a method that performs shot detection so as to segment the trailer into highly
correlated clips. We study different aspects that influence transferability,
such as segmentation strategy, frame rate, input video extension, and
spatio-temporal modeling. Our results demonstrate that representations learned
on either ImageNet or Kinetics are comparatively transferable to Trailers12k,
although they provide complementary information that can be combined to improve
classification performance. Having a similar number of parameters and FLOPS,
Transformers provide a better transferability base than ConvNets. Nevertheless,
competitive performance can be achieved using lightweight ConvNets, becoming an
attractive option for low-resource environments.
- Abstract(参考訳): 転送学習は、幅広いコンピュータビジョン問題の基礎であり、画像解析タスクにおいて広く研究されている。
しかし、映像解析のための文献は乏しく、主にImageNetから学んだ表現を人間の行動認識タスクに転送することに焦点を当てている。
本稿では,マルチレーベル映画トレーラージャンル分類(mtgc)の転送学習について検討する。
特に,新しい手作業によるトレーラーデータセットであるtreaks12k}を紹介し,imagenetおよび/またはトレーラー12k mtgcへの速度から得られた空間的および時空間的表現の転送性を評価する。
ソースとターゲットタスク間の時空間的構造ギャップを低減し、転送性を向上させるため、トレーラを高い相関性のあるクリップに分割するショット検出を行う手法を提案する。
セグメンテーション戦略,フレームレート,入力映像拡張,時空間モデリングなど,転送性に影響を与える様々な側面について検討した。
本研究では,imagenet または kinetics で学習した表現がトレーラーs12k に比較的転送可能であることを実証する。
同様の数のパラメータとFLOPSを持つTransformerは、ConvNetsよりも優れた転送性ベースを提供する。
それでも、軽量なconvnetで競合性能を達成でき、低リソース環境では魅力的な選択肢となる。
関連論文リスト
- SpectFormer: Frequency and Attention is what you need in a Vision
Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。
スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。
本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-13T12:27:17Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Co-training Transformer with Videos and Images Improves Action
Recognition [49.160505782802886]
アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
論文 参考訳(メタデータ) (2021-12-14T05:41:39Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。