論文の概要: Image Conditioned Keyframe-Based Video Summarization Using Object
Detection
- arxiv url: http://arxiv.org/abs/2009.05269v1
- Date: Fri, 11 Sep 2020 07:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:33:04.092315
- Title: Image Conditioned Keyframe-Based Video Summarization Using Object
Detection
- Title(参考訳): オブジェクト検出を用いた画像条件付きキーフレーム映像要約
- Authors: Neeraj Baghel, Suresh C. Raikwar, Charul Bhatnagar
- Abstract要約: 近年,よりユーザ指向の要約とその嗜好を学習するユーザクエリを考慮に入れた,クエリ条件付きビデオ要約が導入されている。
本研究では,i)画像がユーザの嗜好を問うクエリとして導入され,(ii)損失関数と要約分散に基づいて冗長性を最小化する数学的モデルが提案され,(iii)検索画像と入力ビデオの類似度スコアを用いて要約ビデオを得る。
提案モデルでは, (i) ユーザの嗜好の問題, (ii) 重要なフレームを認識し, 日常生活ビデオにおいて, 異なる照明条件で選択した。
- 参考スコア(独自算出の注目度): 2.175391729845306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization plays an important role in selecting keyframe for
understanding a video. Traditionally, it aims to find the most representative
and diverse contents (or frames) in a video for short summaries. Recently,
query-conditioned video summarization has been introduced, which considers user
queries to learn more user-oriented summaries and its preference. However,
there are obstacles in text queries for user subjectivity and finding
similarity between the user query and input frames. In this work, (i) Image is
introduced as a query for user preference (ii) a mathematical model is proposed
to minimize redundancy based on the loss function & summary variance and (iii)
the similarity score between the query image and input video to obtain the
summarized video. Furthermore, the Object-based Query Image (OQI) dataset has
been introduced, which contains the query images. The proposed method has been
validated using UT Egocentric (UTE) dataset. The proposed model successfully
resolved the issues of (i) user preference, (ii) recognize important frames and
selecting that keyframe in daily life videos, with different illumination
conditions. The proposed method achieved 57.06% average F1-Score for UTE
dataset and outperforms the existing state-of-theart by 11.01%. The process
time is 7.81 times faster than actual time of video Experiments on a recently
proposed UTE dataset show the efficiency of the proposed method
- Abstract(参考訳): ビデオ要約は、ビデオを理解するためのキーフレームを選択する上で重要な役割を果たす。
伝統的に、短い要約ビデオの中で最も代表的で多様なコンテンツ(またはフレーム)を見つけることを目的としている。
近年,ユーザクエリがよりユーザ指向の要約とその嗜好を学習する,問合せ条件付きビデオ要約が導入されている。
しかし、ユーザの主観性とユーザクエリと入力フレームの類似性を見出すために、テキストクエリには障害がある。
この作品では
(i)画像はユーザの好みの問い合わせとして導入される
(ii)損失関数と要約分散に基づく冗長性を最小化する数学的モデルを提案する。
(iii)問合せ画像と入力映像との類似度スコアから要約映像を得る。
さらに、クエリイメージを含むObject-based Query Image (OQI)データセットも導入された。
提案手法はUT Egocentric (UTE) データセットを用いて検証されている。
提案したモデルは問題の解決に成功している
(i)利用者の嗜好
(i)重要なフレームを認識し,そのキーフレームを照明条件の異なる日常生活ビデオで選択する。
提案手法は,UTEデータセットの平均F1スコアを57.06%達成し,既存の最先端技術よりも11.01%向上した。
最近提案された ute データセットにおけるビデオ実験の実際の時間より7.81倍高速で,提案手法の有効性を示す。
関連論文リスト
- Your Interest, Your Summaries: Query-Focused Long Video Summarization [0.6041235048439966]
本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。
本稿では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(FCSNA-QFVS)を提案する。
論文 参考訳(メタデータ) (2024-10-17T23:37:58Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - IntentVizor: Towards Generic Query Guided Interactive Video
Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。
ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文 参考訳(メタデータ) (2021-09-30T03:44:02Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。