論文の概要: Efficient Video Summarization Framework using EEG and Eye-tracking
Signals
- arxiv url: http://arxiv.org/abs/2101.11249v1
- Date: Wed, 27 Jan 2021 08:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:10:58.767184
- Title: Efficient Video Summarization Framework using EEG and Eye-tracking
Signals
- Title(参考訳): 脳波とアイトラッキング信号を用いた効率的なビデオ要約フレームワーク
- Authors: Sai Sukruth Bezugam, Swatilekha Majumdar, Chetan Ralekar and Tapan
Kumar Gandhi
- Abstract要約: 本稿では,いくつかのキーフレームやビデオのスキムで映像全体のギストを与える,効率的な映像要約フレームワークを提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
提案手法を用いて,高い精度と高いリコール係数を維持しつつ,動画を96.5%要約する。
- 参考スコア(独自算出の注目度): 0.92246583941469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an efficient video summarization framework that will give
a gist of the entire video in a few key-frames or video skims. Existing video
summarization frameworks are based on algorithms that utilize computer vision
low-level feature extraction or high-level domain level extraction. However,
being the ultimate user of the summarized video, humans remain the most
neglected aspect. Therefore, the proposed paper considers human's role in
summarization and introduces human visual attention-based summarization
techniques. To understand human attention behavior, we have designed and
performed experiments with human participants using electroencephalogram (EEG)
and eye-tracking technology. The EEG and eye-tracking data obtained from the
experimentation are processed simultaneously and used to segment frames
containing useful information from a considerable video volume. Thus, the frame
segmentation primarily relies on the cognitive judgments of human beings. Using
our approach, a video is summarized by 96.5% while maintaining higher precision
and high recall factors. The comparison with the state-of-the-art techniques
demonstrates that the proposed approach yields ceiling-level performance with
reduced computational cost in summarising the videos.
- Abstract(参考訳): 本稿では,いくつかのキーフレームやビデオスキームでビデオ全体の要点を提示する効率的なビデオ要約フレームワークを提案する。
既存のビデオ要約フレームワークは、コンピュータビジョンの低レベル特徴抽出または高レベルドメインレベル抽出を利用するアルゴリズムに基づいている。
しかし、要約ビデオの究極の利用者である人間は、いまだに最も無視されている側面である。
そこで本論文では,人間の要約における役割を考察し,人間の視覚的注意に基づく要約手法を提案する。
ヒトの注意行動を理解するため,脳波と視線追跡技術を用いて,ヒトの被験者による実験を設計・実施した。
実験から得られた脳波と視線追跡データを同時に処理し、相当な映像量から有用な情報を含むフレームをセグメント化する。
したがって、フレームセグメンテーションは主に人間の認知的判断に依存している。
本手法では,高い精度と高いリコール係数を維持しながら96.5%の映像を要約する。
最先端技術との比較により,提案手法は映像の要約に要する計算コストを低減し,天井レベルの性能をもたらすことが示された。
関連論文リスト
- Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Use of Affective Visual Information for Summarization of Human-Centric
Videos [13.273989782771556]
本研究では、人間中心のビデオに対する感情情報豊かに教師付きビデオ要約タスクについて検討する。
まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。
次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ(AVSUM)を定義する。
論文 参考訳(メタデータ) (2021-07-08T11:46:04Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。