Fugu-MT 論文翻訳(概要): A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction

論文の概要: A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction

arxiv url: http://arxiv.org/abs/2109.12581v1
Date: Sun, 26 Sep 2021 12:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-28 15:17:13.455317
Title: A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction
Title（参考訳）: 時間的興味検出とキーフレーム予測を用いた映像要約手法
Authors: Yubo An and Shenghui Zhao
Abstract要約: ビデオ要約は、シーケンスラベリングと時間的興味検出問題の組み合わせとして定式化される。本研究ではまず,フレームレベルの重要度と時間的関心区間を同時に予測するフレキシブル・ユニバーサル・ネットワーク・フレームを構築した。 2つのベンチマークデータセットのテストと分析により,本手法の有効性が証明された。
参考スコア（独自算出の注目度）: 3.9596068699962323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, a Video Summarization Method using Temporal Interest Detection and Key Frame Prediction is proposed for supervised video summarization, where video summarization is formulated as a combination of sequence labeling and temporal interest detection problem. In our method, we firstly built a flexible universal network frame to simultaneously predicts frame-level importance scores and temporal interest segments, and then combine the two components with different weights to achieve a more detailed video summarization. Extensive experiments and analysis on two benchmark datasets prove the effectiveness of our method. Specifically, compared with other state-of-the-art methods, its performance is increased by at least 2.6% and 4.2% on TVSum and SumMe respectively.
Abstract（参考訳）: 本稿では,映像要約をシーケンスラベリングと時間的関心検出の組合せとして定式化した教師付き映像要約に対して,時間的関心検出と鍵フレーム予測を用いた映像要約法を提案する。提案手法では,まず,フレームレベルの重要度スコアと時間的関心セグメントを同時に予測するフレキシブルなユニバーサルネットワークフレームを構築し,その2つのコンポーネントを異なる重み付けで組み合わせ,より詳細な映像要約を実現する。 2つのベンチマークデータセットの大規模な実験と解析により,本手法の有効性が証明された。具体的には、他の最先端の方法と比較して、TVSumとSumMeでそれぞれ2.6%と4.2%のパフォーマンスが向上している。

関連論文リスト

Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2024-03-28T03:07:16Z)
Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文参考訳（メタデータ） (2023-07-04T22:52:16Z)
Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文参考訳（メタデータ） (2022-11-22T06:19:17Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)
Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文参考訳（メタデータ） (2021-03-01T20:48:01Z)
Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文参考訳（メタデータ） (2021-02-04T17:28:35Z)
Efficient video annotation with visual interpolation and frame selection guidance [0.0]
バウンディングボックスを備えたジェネリックビデオアノテーションの統一フレームワークを紹介します。提案手法は,一般的な線形手法に比べて実測アノテーション時間を50%短縮することを示す。
論文参考訳（メタデータ） (2020-12-23T09:31:40Z)
Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。 UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文参考訳（メタデータ） (2020-08-30T15:38:44Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)
Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-07-21T04:54:30Z)
Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文参考訳（メタデータ） (2020-06-02T06:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。