論文の概要: Shot boundary detection method based on a new extensive dataset and
mixed features
- arxiv url: http://arxiv.org/abs/2109.01057v1
- Date: Thu, 2 Sep 2021 16:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 13:52:30.847041
- Title: Shot boundary detection method based on a new extensive dataset and
mixed features
- Title(参考訳): 新しい広範囲データセットと混合特徴に基づくショット境界検出法
- Authors: Alexander Gushchin, Anastasia Antsiferova and Dmitriy Vatolin
- Abstract要約: ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。
カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shot boundary detection in video is one of the key stages of video data
processing. A new method for shot boundary detection based on several video
features, such as color histograms and object boundaries, has been proposed.
The developed algorithm was tested on the open BBC Planet Earth [1] and RAI [2]
datasets, and the MSU CC datasets, based on videos used in the video codec
comparison conducted at MSU, as well as videos from the IBM set, were also
plotted. The total dataset for algorithm development and testing exceeded the
known TRECVID datasets. Based on the test results, the proposed algorithm for
scene change detection outperformed its counterparts with a final F-score of
0.9794.
- Abstract(参考訳): ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。
カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
開発したアルゴリズムは、オープンbbcのplanet earth [1]とrai [2]データセットでテストされ、msuで実施したビデオコーデック比較で使用されたビデオとibmのセットのビデオを基にしたmsu ccデータセットもプロットされた。
アルゴリズムの開発とテストのための全データセットは、既知のTRECVIDデータセットを上回った。
実験結果から, シーン変化検出アルゴリズムは, 最終的なFスコア0.9794よりも優れていた。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - A Deep Learning Approach to Video Anomaly Detection using Convolutional
Autoencoders [0.0]
提案手法は、畳み込みオートエンコーダを用いて、通常のビデオのパターンを学習し、テストビデオの各フレームをこの学習表現と比較する。
我々は我々のアプローチを評価し、Ped1データセットで99.35%、Ped2データセットで97%の精度を達成した。
その結果,本手法は他の最先端手法よりも優れており,実世界のビデオ異常検出に利用することができることがわかった。
論文 参考訳(メタデータ) (2023-11-07T21:23:32Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Video Segmentation Learning Using Cascade Residual Convolutional Neural
Network [0.0]
本研究では,残差情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案する。
Change Detection 2014とPetrobrasのプライベートデータセットであるPetrobrasROUTESで実施された実験は、提案手法の有効性を支持している。
論文 参考訳(メタデータ) (2022-12-20T16:56:54Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - An End-to-End Trainable Video Panoptic Segmentation Method
usingTransformers [0.11714813224840924]
本稿では,新しい研究領域であるビデオパノプティカルセグメンテーション問題に取り組むアルゴリズムを提案する。
提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。
この方法は、KITTI-STEPデータセットで57.81%、MOTChallenge-STEPデータセットで31.8%をアーカイブした。
論文 参考訳(メタデータ) (2021-10-08T10:13:37Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - A New Unified Method for Detecting Text from Marathon Runners and Sports
Players in Video [37.86508176161514]
提案手法は,テキスト画素の勾配等級と方向コヒーレンスを,候補領域を検出する新しい方法で融合する。
皮膚情報に基づいて,構造的および空間的コヒーレンスを見つけ,顔と胴体を検出する。
異なるデータセットのバイブ数/テキスト検出における最先端手法との比較研究により,提案手法が既存手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T05:54:28Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。