論文の概要: TransNet V2: An effective deep network architecture for fast shot
transition detection
- arxiv url: http://arxiv.org/abs/2008.04838v1
- Date: Tue, 11 Aug 2020 16:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:53:35.081258
- Title: TransNet V2: An effective deep network architecture for fast shot
transition detection
- Title(参考訳): TransNet V2: 高速ショット遷移検出のための効果的なディープネットワークアーキテクチャ
- Authors: Tom\'a\v{s} Sou\v{c}ek and Jakub Loko\v{c}
- Abstract要約: 本稿では、上位ベンチマークで最先端の性能に達するディープネットワークTransNet V2の現バージョンを公開する。
トレーニングされたモデルのインスタンスが提供され、コミュニティによって即座に大きなビデオアーカイブの高効率な分析に利用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although automatic shot transition detection approaches are already
investigated for more than two decades, an effective universal human-level
model was not proposed yet. Even for common shot transitions like hard cuts or
simple gradual changes, the potential diversity of analyzed video contents may
still lead to both false hits and false dismissals. Recently, deep
learning-based approaches significantly improved the accuracy of shot
transition detection using 3D convolutional architectures and artificially
created training data. Nevertheless, one hundred percent accuracy is still an
unreachable ideal. In this paper, we share the current version of our deep
network TransNet V2 that reaches state-of-the-art performance on respected
benchmarks. A trained instance of the model is provided so it can be instantly
utilized by the community for a highly efficient analysis of large video
archives. Furthermore, the network architecture, as well as our experience with
the training process, are detailed, including simple code snippets for
convenient usage of the proposed model and visualization of results.
- Abstract(参考訳): 自動ショット遷移検出手法はすでに20年以上研究されてきたが、有効な普遍的人間レベルモデルはまだ提案されていない。
ハードカットや簡単な段階的な変更など、一般的なショット遷移であっても、分析されたビデオコンテンツの多様性は、偽のヒットと偽の解雇の両方につながる可能性がある。
近年,3次元畳み込みアーキテクチャと人工的なトレーニングデータを用いたショット遷移検出の精度が向上した。
とはいえ、100パーセントの精度はまだ到達不能な理想だ。
本稿では、上位ベンチマークで最先端の性能に達するディープネットワークTransNet V2の現バージョンを共有する。
トレーニングされたモデルのインスタンスが提供され、コミュニティによって即座に大きなビデオアーカイブの高効率な分析に利用することができる。
さらに、ネットワークアーキテクチャ、およびトレーニングプロセスでの我々の経験を詳述し、提案モデルの便利な利用のための簡単なコードスニペットや結果の可視化などについて述べる。
関連論文リスト
- Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos [0.2023650687546586]
本稿では,SVMODのための高度に効率的な非教師付きフレームワークを提案する。
提案手法は,1024倍画像上で秒間9フレームを処理できるだけでなく,フォアグラウンド・アート・パフォーマンスも実現可能であることを示す。
論文 参考訳(メタデータ) (2024-11-24T16:06:42Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Deep Analysis of CNN-based Spatio-temporal Representations for Action
Recognition [26.006191751270393]
近年,映像行動認識のための2次元・3次元畳み込みニューラルネットワーク(CNN)に基づくアプローチが数多く出現している。
2D-CNNと3D-CNNの両方のアクションモデルのための統合フレームワークを開発する。
次に,300以上の行動認識モデルを含む大規模分析への取り組みを行う。
論文 参考訳(メタデータ) (2020-10-22T14:26:09Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。