論文の概要: SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation
- arxiv url: http://arxiv.org/abs/2002.09424v1
- Date: Wed, 19 Feb 2020 18:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:00:49.294935
- Title: SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation
- Title(参考訳): SummaryNet: 自動ビデオ要約のための多段階ディープラーニングモデル
- Authors: Ziyad Jappie and David Torpey and Turgay Celik
- Abstract要約: 本稿では,自動要約のための教師あり学習フレームワークとして,SupiseNetを紹介する。
2ストリームの畳み込みネットワークを使用して、空間(外観)と時間(動き)の表現を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarisation can be posed as the task of extracting important parts of
a video in order to create an informative summary of what occurred in the
video. In this paper we introduce SummaryNet as a supervised learning framework
for automated video summarisation. SummaryNet employs a two-stream
convolutional network to learn spatial (appearance) and temporal (motion)
representations. It utilizes an encoder-decoder model to extract the most
salient features from the learned video representations. Lastly, it uses a
sigmoid regression network with bidirectional long short-term memory cells to
predict the probability of a frame being a summary frame. Experimental results
on benchmark datasets show that the proposed method achieves comparable or
significantly better results than the state-of-the-art video summarisation
methods.
- Abstract(参考訳): ビデオ要約は、ビデオで何が起こったかの情報を要約するためにビデオの重要な部分を抽出するタスクとして提示することができる。
本稿では,自動要約のための教師あり学習フレームワークとしてSessionNetを紹介する。
SummaryNetは2ストリームの畳み込みネットワークを使って空間(外観)と時間(動き)の表現を学習する。
エンコーダ・デコーダモデルを用いて、学習したビデオ表現から最も有能な特徴を抽出する。
最後に、双方向長短期メモリセルを備えたシグモイド回帰ネットワークを用いて、フレームが要約フレームである確率を予測する。
ベンチマークデータセットにおける実験結果は,提案手法が最先端ビデオ要約法と同等か,あるいは著しく良好な結果が得られることを示した。
関連論文リスト
- UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。