論文の概要: Learning to Summarize Videos by Contrasting Clips
- arxiv url: http://arxiv.org/abs/2301.05213v1
- Date: Thu, 12 Jan 2023 18:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:47:09.787485
- Title: Learning to Summarize Videos by Contrasting Clips
- Title(参考訳): クリップの対比による映像の要約学習
- Authors: Ivan Sosnovik, Artem Moskalev, Cees Kaandorp, Arnold Smeulders
- Abstract要約: ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
- 参考スコア(独自算出の注目度): 1.3999481573773074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims at choosing parts of a video that narrate a story as
close as possible to the original one. Most of the existing video summarization
approaches focus on hand-crafted labels. se As the number of videos grows
exponentially, there emerges an increasing need for methods that can learn
meaningful summarizations without labeled annotations. In this paper, we aim to
maximally exploit unsupervised video summarization while concentrating the
supervision to a few, personalized labels as an add-on. To do so, we formulate
the key requirements for the informative video summarization. Then, we propose
contrastive learning as the answer to both questions. To further boost
Contrastive video Summarization (CSUM), we propose to contrast top-k features
instead of a mean video feature as employed by the existing method, which we
implement with a differentiable top-k feature selector. Our experiments on
several benchmarks demonstrate, that our approach allows for meaningful and
diverse summaries when no labeled data is provided.
- Abstract(参考訳): ビデオ要約は、ストーリーをできるだけ元のストーリーに近づけるビデオの一部を選ぶことを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに焦点を当てている。
動画の数が指数関数的に増加するにつれ、ラベル付きアノテーションなしで意味のある要約を学習できるメソッドの必要性が高まる。
本稿では,教師なし動画の要約を最大限活用しつつ,いくつかの個人化されたラベルをアドオンとして集中させることを目的としている。
そこで我々は,映像要約の鍵となる要件を定式化する。
そこで,両質問に対する回答として,コントラスト学習を提案する。
コントラストビデオ要約(csum)をさらに強化するため,既存の手法で採用されている平均ビデオ機能ではなく,トップk機能をコントラストする手法を提案する。
いくつかのベンチマーク実験により,ラベル付きデータが提供されない場合,本手法が有意義かつ多様な要約を可能にすることが示された。
関連論文リスト
- Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。