論文の概要: Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework
- arxiv url: http://arxiv.org/abs/2007.14560v2
- Date: Tue, 25 Aug 2020 09:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:11:30.620715
- Title: Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework
- Title(参考訳): VISIOCITYによるリアルなビデオ要約:新しいベンチマークと評価フレームワーク
- Authors: Vishal Kaushal, Suraj Kothawade, Rishabh Iyer, Ganesh Ramakrishnan
- Abstract要約: いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
- 参考スコア(独自算出の注目度): 15.656965429236235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic video summarization is still an unsolved problem due to several
challenges. We take steps towards making automatic video summarization more
realistic by addressing them. Firstly, the currently available datasets either
have very short videos or have few long videos of only a particular type. We
introduce a new benchmarking dataset VISIOCITY which comprises of longer videos
across six different categories with dense concept annotations capable of
supporting different flavors of video summarization and can be used for other
vision problems. Secondly, for long videos, human reference summaries are
difficult to obtain. We present a novel recipe based on pareto optimality to
automatically generate multiple reference summaries from indirect ground truth
present in VISIOCITY. We show that these summaries are at par with human
summaries. Thirdly, we demonstrate that in the presence of multiple ground
truth summaries (due to the highly subjective nature of the task), learning
from a single combined ground truth summary using a single loss function is not
a good idea. We propose a simple recipe VISIOCITY-SUM to enhance an existing
model using a combination of losses and demonstrate that it beats the current
state of the art techniques when tested on VISIOCITY. We also show that a
single measure to evaluate a summary, as is the current typical practice, falls
short. We propose a framework for better quantitative assessment of summary
quality which is closer to human judgment than a single measure, say F1. We
report the performance of a few representative techniques of video
summarization on VISIOCITY assessed using various measures and bring out the
limitation of the techniques and/or the assessment mechanism in modeling human
judgment and demonstrate the effectiveness of our evaluation framework in doing
so.
- Abstract(参考訳): ビデオの自動要約は、いくつかの課題のためにまだ未解決の問題である。
私たちは、ビデオの自動要約をより現実的なものにするためのステップを取ります。
第一に、現在利用可能なデータセットは、非常に短いビデオを持つか、特定のタイプのビデオしか持たない。
そこで本研究では,ビデオ要約のフレーバーをサポートする高密度な概念アノテーションを備えた,6つのカテゴリにまたがる長いビデオからなるベンチマークデータセットVISIOCITYを提案する。
第二に、長いビデオでは、人間の参照要約を得るのが難しい。
本稿では,VISIOCITYにおける間接的接地真理から複数の参照要約を自動生成する,パレート最適性に基づく新しいレシピを提案する。
これらの要約は人間の要約と同等であることを示す。
第3に、複数の基底的真理の要約(タスクの非常に主観的な性質による)が存在する場合、単一損失関数を用いた単一の複合的基底的真理要約から学ぶことは良い考えではないことを実証する。
そこで本研究では,損失の組合せを用いた既存モデルの拡張のための簡易なレシピであるvisiocity-sumを提案する。
また,要約を評価するための1つの尺度は,現在の慣行と同様,不足していることを示す。
本稿では,1つの尺度よりも人間の判断に近い要約品質を定量的に評価するための枠組みを提案する。
本報告では,様々な尺度を用いて評価したビジオシティに関する映像要約手法の性能を報告し,人間判断のモデル化における手法や評価機構の限界を提示するとともに,評価枠組みの有効性を実証する。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-26T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。