論文の概要: Scene Separation & Data Selection: Temporal Segmentation Algorithm for
Real-Time Video Stream Analysis
- arxiv url: http://arxiv.org/abs/2308.00210v1
- Date: Tue, 1 Aug 2023 00:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:49:30.209898
- Title: Scene Separation & Data Selection: Temporal Segmentation Algorithm for
Real-Time Video Stream Analysis
- Title(参考訳): シーン分離とデータ選択:リアルタイムビデオストリーム解析のための時間分割アルゴリズム
- Authors: Yuelin Xin, Zihan Zhou, Yuxuan Xia
- Abstract要約: 本稿では,リアルタイムビデオストリーム解釈に使用される時間分割アルゴリズムである2SDSを提案する。
2SDSは、2フレーム間の画像差を合成することにより、ビデオストリーム内のシーン間の変化を検出することができる。
ビデオをセグメント(シーン)に分割し、CNNモデルと組み合わせることで、2SDSはシーンごとに最適な結果を選択することができる。
- 参考スコア(独自算出の注目度): 4.33628084815831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 2SDS (Scene Separation and Data Selection algorithm), a temporal
segmentation algorithm used in real-time video stream interpretation. It
complements CNN-based models to make use of temporal information in videos.
2SDS can detect the change between scenes in a video stream by com-paring the
image difference between two frames. It separates a video into segments
(scenes), and by combining itself with a CNN model, 2SDS can select the optimal
result for each scene. In this paper, we will be discussing some basic methods
and concepts behind 2SDS, as well as presenting some preliminary experiment
results regarding 2SDS. During these experiments, 2SDS has achieved an overall
accuracy of over 90%.
- Abstract(参考訳): リアルタイムビデオストリームの解釈に使用される時間分割アルゴリズムである2SDS(Scene separation and Data Selection algorithm)を提案する。
ビデオで時間情報を利用するcnnベースのモデルを補完する。
2SDSは、2フレーム間の画像差を合成することにより、ビデオストリーム内のシーン間の変化を検出することができる。
ビデオをセグメント(シーン)に分割し、CNNモデルと組み合わせることで、2SDSはシーンごとに最適な結果を選択することができる。
本稿では,2SDSの背景となる基本的な手法と概念について論じるとともに,2SDSに関する予備実験結果を示す。
これらの実験で、2sdsは90%以上の精度を達成した。
関連論文リスト
- Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification [86.73532136686438]
映像人物再識別(reID)のための効率的な時空間表現法を提案する。
空間相補性モデリングのための双方向相補性ネットワーク(BiCnet)を提案する。
BiCnet-TKSは、約50%の計算量で最先端の性能を発揮する。
論文 参考訳(メタデータ) (2021-04-30T06:44:34Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language [112.32586622873731]
自然言語による未編集映像から特定の瞬間を検索する問題に対処する。
我々は、時間スケールの異なる2次元マップのセットを用いて、ビデオモーメント間の時間的文脈をモデル化する。
モーメントローカライゼーションのためのシングルショットフレームワークであるMS-2D-TAN(Multi-Scale Temporal Adjacent Network)を提案する。
論文 参考訳(メタデータ) (2020-12-04T15:09:35Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。