論文の概要: LTC-SUM: Lightweight Client-driven Personalized Video Summarization
Framework Using 2D CNN
- arxiv url: http://arxiv.org/abs/2201.09049v1
- Date: Sat, 22 Jan 2022 13:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 08:35:23.472785
- Title: LTC-SUM: Lightweight Client-driven Personalized Video Summarization
Framework Using 2D CNN
- Title(参考訳): LTC-SUM:2D CNNを用いた軽量クライアント駆動パーソナライズビデオ要約フレームワーク
- Authors: Ghulam Mujtaba, Adeel Malik, and Eun-Seok Ryu
- Abstract要約: 本稿では,フル長ビデオのための軽量サムネイルコンテナベース要約(LTC-SUM)フレームワークを提案する。
エンドユーザー装置の計算資源を用いて、同時ユーザ向けにパーソナライズされたキーショット要約を生成する。
- 参考スコア(独自算出の注目度): 5.95248889179516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel lightweight thumbnail container-based
summarization (LTC-SUM) framework for full feature-length videos. This
framework generates a personalized keyshot summary for concurrent users by
using the computational resource of the end-user device. State-of-the-art
methods that acquire and process entire video data to generate video summaries
are highly computationally intensive. In this regard, the proposed LTC-SUM
method uses lightweight thumbnails to handle the complex process of detecting
events. This significantly reduces computational complexity and improves
communication and storage efficiency by resolving computational and privacy
bottlenecks in resource-constrained end-user devices. These improvements were
achieved by designing a lightweight 2D CNN model to extract features from
thumbnails, which helped select and retrieve only a handful of specific
segments. Extensive quantitative experiments on a set of full 18 feature-length
videos (approximately 32.9 h in duration) showed that the proposed method is
significantly computationally efficient than state-of-the-art methods on the
same end-user device configurations. Joint qualitative assessments of the
results of 56 participants showed that participants gave higher ratings to the
summaries generated using the proposed method. To the best of our knowledge,
this is the first attempt in designing a fully client-driven personalized
keyshot video summarization framework using thumbnail containers for
feature-length videos.
- Abstract(参考訳): 本稿では,フル長ビデオのための軽量サムネイルコンテナベース要約(LTC-SUM)フレームワークを提案する。
このフレームワークは、エンドユーザーデバイスの計算資源を用いて、同時ユーザ向けにパーソナライズされたキーショット要約を生成する。
ビデオデータ全体を取得して処理し、ビデオ要約を生成する最先端の手法は、非常に計算集約的である。
この点に関して,提案手法は軽量サムネイルを用いて事象を検出する複雑なプロセスを処理する。
これは計算の複雑さを大幅に削減し、リソース制約のあるエンドユーザデバイスにおける計算とプライバシのボトルネックを解決することにより、通信とストレージの効率を向上させる。
これらの改善は、サムネイルから機能を抽出するために軽量な2d cnnモデルを設計することで達成された。
フル18機能長ビデオ(約32.9時間)の大規模な定量的実験により,提案手法は,同じエンドユーザーデバイス構成の最先端手法よりも計算効率が高いことがわかった。
56名の被験者による共同定性評価の結果,提案手法を用いて作成したサマリーに高い評価が得られた。
私たちの知る限りでは、これは、長編ビデオにサムネイルコンテナを使用した、クライアント主導のパーソナライズされたkeyshotビデオ要約フレームワークを設計する最初の試みです。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - LTC-GIF: Attracting More Clicks on Feature-length Sports Videos [4.776806621717593]
本稿では,パーソナライズされた芸術的メディアを提示することで,ユーザを惹きつけ,映像のビューを増やすための軽量な手法を提案する。
クライアントデバイスの計算資源を用いて軽量なサムネイルコンテナ(LTC)を分析し、フル長のスポーツビデオからパーソナライズされたイベントを認識する。
ビデオ全体を処理する代わりに、小さなビデオセグメントが処理され、芸術的なメディアを生成する。
論文 参考訳(メタデータ) (2022-01-22T15:34:10Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - LocFormer: Enabling Transformers to Perform Temporal Moment Localization
on Long Untrimmed Videos With a Feature Sampling Approach [35.93734845932161]
LocFormerはビデオグラウンドのためのTransformerベースのモデルで、ビデオの長さに関わらず一定のメモリフットプリントで動作する。
本稿では,機能分離のためのモジュール設計を提案し,自己注意型ヘッドの監視を通じて帰納的バイアスを学習する。
論文 参考訳(メタデータ) (2021-12-19T05:32:14Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Efficient Video Summarization Framework using EEG and Eye-tracking
Signals [0.92246583941469]
本稿では,いくつかのキーフレームやビデオのスキムで映像全体のギストを与える,効率的な映像要約フレームワークを提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
提案手法を用いて,高い精度と高いリコール係数を維持しつつ,動画を96.5%要約する。
論文 参考訳(メタデータ) (2021-01-27T08:13:19Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation [0.0]
本稿では,自動要約のための教師あり学習フレームワークとして,SupiseNetを紹介する。
2ストリームの畳み込みネットワークを使用して、空間(外観)と時間(動き)の表現を学習する。
論文 参考訳(メタデータ) (2020-02-19T18:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。