論文の概要: How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization
- arxiv url: http://arxiv.org/abs/2101.10514v1
- Date: Tue, 26 Jan 2021 01:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:46:18.886723
- Title: How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization
- Title(参考訳): ビデオ要約はどれくらい良いですか。
リアルタイムビデオ要約のための新しいベンチマークデータセットと評価フレームワーク
- Authors: Vishal Kaushal, Suraj Kothawade, Anshul Tomar, Rishabh Iyer, Ganesh
Ramakrishnan
- Abstract要約: 6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
- 参考スコア(独自算出の注目度): 11.320914099324492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic video summarization is still an unsolved problem due to several
challenges. The currently available datasets either have very short videos or
have few long videos of only a particular type. We introduce a new benchmarking
video dataset called VISIOCITY (VIdeo SummarIzatiOn based on Continuity, Intent
and DiversiTY) which comprises of longer videos across six different categories
with dense concept annotations capable of supporting different flavors of video
summarization and other vision problems. For long videos, human reference
summaries necessary for supervised video summarization techniques are difficult
to obtain. We explore strategies to automatically generate multiple reference
summaries from indirect ground truth present in VISIOCITY. We show that these
summaries are at par with human summaries. We also present a study of different
desired characteristics of a good summary and demonstrate how it is normal to
have two good summaries with different characteristics. Thus we argue that
evaluating a summary against one or more human summaries and using a single
measure has its shortcomings. We propose an evaluation framework for better
quantitative assessment of summary quality which is closer to human judgment.
Lastly, we present insights into how a model can be enhanced to yield better
summaries. Sepcifically, when multiple diverse ground truth summaries can
exist, learning from them individually and using a combination of loss
functions measuring different characteristics is better than learning from a
single combined (oracle) ground truth summary using a single loss function. We
demonstrate the effectiveness of doing so as compared to some of the
representative state of the art techniques tested on VISIOCITY. We release
VISIOCITY as a benchmarking dataset and invite researchers to test the
effectiveness of their video summarization algorithms on VISIOCITY.
- Abstract(参考訳): 自動ビデオ要約は、いくつかの課題のために未解決の問題です。
現在入手可能なデータセットは、非常に短いビデオを持つか、特定のタイプのビデオしか持たない。
visiocity(連続性、意図、多様性に基づくビデオ要約)と呼ばれる新しいベンチマークビデオデータセットを導入し、6つのカテゴリにまたがる長いビデオからなる。
ロングビデオでは、監督ビデオ要約技術に必要な人間の参照要約を得ることは困難です。
VISIOCITYに存在する間接的な接地真理から複数の参照要約を自動的に生成する戦略を検討します。
これらの要約は人間の要約と同等であることを示す。
また、良い要約の異なる望ましい特徴について検討し、異なる特徴を持つ2つの良い要約を持つことがいかに普通であるかを示す。
したがって,1つ以上の要約と1つの測度を用いて要約を評価するには欠点がある。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
最後に、より優れた要約を得るためにモデルをどのように拡張できるかについての洞察を示す。
複数の多様な基底真理サマリーが存在する場合、個別に学習し、異なる特性を測定する損失関数の組み合わせを用いることで、単一の損失関数を用いて単一の組み合わせ(オークル)基底真理サマリーから学習するよりは、効果的である。
我々は,VISIOCITYで試験された技術技術の代表的状況と比較し,その有効性を実証する。
VISIOCITYをベンチマークデータセットとしてリリースし、VISIOCITY上でのビデオ要約アルゴリズムの有効性をテストする研究者を招待します。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。