論文の概要: A Low-Computational Video Synopsis Framework with a Standard Dataset
- arxiv url: http://arxiv.org/abs/2409.05230v1
- Date: Sun, 8 Sep 2024 22:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:58:34.047627
- Title: A Low-Computational Video Synopsis Framework with a Standard Dataset
- Title(参考訳): 標準データセットを用いた低計算ビデオ合成フレームワーク
- Authors: Ramtin Malekpour, M. Mehrdad Morsali, Hoda Mohammadzade,
- Abstract要約: ビデオ合成は、監視ビデオの凝縮に有効な方法である。
ビデオ合成タスクの標準データセットの欠如は、異なるビデオ合成モデルの比較を妨げる。
本稿では,計算コストの低いFGSというビデオ合成モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video synopsis is an efficient method for condensing surveillance videos. This technique begins with the detection and tracking of objects, followed by the creation of object tubes. These tubes consist of sequences, each containing chronologically ordered bounding boxes of a unique object. To generate a condensed video, the first step involves rearranging the object tubes to maximize the number of non-overlapping objects in each frame. Then, these tubes are stitched to a background image extracted from the source video. The lack of a standard dataset for the video synopsis task hinders the comparison of different video synopsis models. This paper addresses this issue by introducing a standard dataset, called SynoClip, designed specifically for the video synopsis task. SynoClip includes all the necessary features needed to evaluate various models directly and effectively. Additionally, this work introduces a video synopsis model, called FGS, with low computational cost. The model includes an empty-frame object detector to identify frames empty of any objects, facilitating efficient utilization of the deep object detector. Moreover, a tube grouping algorithm is proposed to maintain relationships among tubes in the synthesized video. This is followed by a greedy tube rearrangement algorithm, which efficiently determines the start time of each tube. Finally, the proposed model is evaluated using the proposed dataset. The source code, fine-tuned object detection model, and tutorials are available at https://github.com/Ramtin-ma/VideoSynopsis-FGS.
- Abstract(参考訳): ビデオ合成は、監視ビデオの凝縮に有効な方法である。
このテクニックは、オブジェクトの検出と追跡から始まり、続いてオブジェクトチューブを生成する。
これらの管は配列で構成され、それぞれが一意な物体の時系列的に順序付けられた有界箱を含む。
凝縮されたビデオを生成するために、最初のステップでは、各フレーム内の非重複オブジェクトの数を最大化するために、オブジェクトチューブを再構成する。
そして、これらのチューブを、ソースビデオから抽出した背景画像に縫合する。
ビデオ合成タスクの標準データセットの欠如は、異なるビデオ合成モデルの比較を妨げる。
本稿では,ビデオ合成タスクに特化して設計されたSynoClipという標準データセットを導入することで,この問題に対処する。
SynoClipには、さまざまなモデルを直接的かつ効果的に評価するために必要なすべての機能が含まれている。
さらに、この研究は、計算コストの低いFGSと呼ばれるビデオ合成モデルを導入している。
モデルは、どんなオブジェクトも空のフレームを識別する空のオブジェクト検出器を含み、ディープオブジェクト検出器の効率的な利用を容易にする。
さらに,合成ビデオ中の管間の関係を維持するために,管群化アルゴリズムを提案する。
これに続いて、各管の開始時刻を効率よく決定するグリーディ管再構成アルゴリズムが用いられる。
最後に、提案したモデルについて、提案したデータセットを用いて評価する。
ソースコード、微調整されたオブジェクト検出モデル、チュートリアルはhttps://github.com/Ramtin-ma/VideoSynopsis-FGSで公開されている。
関連論文リスト
- Manipulating a Tetris-Inspired 3D Video Representation [0.0]
ビデオアルゴリズムは、ビデオ内の活動を保存する方法でビデオ圧縮を実行する技術である。
異なるアプリケーションに適した異なるオブジェクト時間データ表現について論じる。
本稿では,ビデオ合成の問題を解決するために,パッキングアルゴリズムの適用について検討する。
論文 参考訳(メタデータ) (2024-07-11T22:41:14Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Moving Object Based Collision-Free Video Synopsis [1.55172825097051]
ビデオ合成は空間的・時間的冗長性を利用して短いビデオを生成する。
合成の各フレームを漸進的に縫合する手法を用いてリアルタイムアルゴリズムを提案する。
屋内と屋外の6つの一般的なテストビデオを用いた実験では、提案したビデオ合成アルゴリズムは既存の手法よりもフレーム削減率が高いことが示された。
論文 参考訳(メタデータ) (2023-09-17T16:49:42Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - A new Video Synopsis Based Approach Using Stereo Camera [0.5801044612920815]
物体に基づく教師なし学習を用いた新しい異常検出法を開発した。
この方法を用いて、映像データを画素として処理し、その結果をビデオセグメントとして生成する。
私たちが開発したモデルは、単眼カメラとデュアルカメラシステムで別々にテストされ、検証されている。
論文 参考訳(メタデータ) (2021-06-23T12:57:47Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。