論文の概要: Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization
- arxiv url: http://arxiv.org/abs/2211.10056v1
- Date: Fri, 18 Nov 2022 07:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:00:48.825591
- Title: Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization
- Title(参考訳): コントラスト損失は教師なしビデオ要約の自然な基準である
- Authors: Zongshang Pang, Yuta Nakashima, Mayu Otani, Hajime Nagahara
- Abstract要約: ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
- 参考スコア(独自算出の注目度): 27.312423653997087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims to select the most informative subset of frames in a
video to facilitate efficient video browsing. Unsupervised methods usually rely
on heuristic training objectives such as diversity and representativeness.
However, such methods need to bootstrap the online-generated summaries to
compute the objectives for importance score regression. We consider such a
pipeline inefficient and seek to directly quantify the frame-level importance
with the help of contrastive losses in the representation learning literature.
Leveraging the contrastive losses, we propose three metrics featuring a
desirable key frame: local dissimilarity, global consistency, and uniqueness.
With features pre-trained on the image classification task, the metrics can
already yield high-quality importance scores, demonstrating competitive or
better performance than past heavily-trained methods. We show that by refining
the pre-trained features with a lightweight contrastively learned projection
module, the frame-level importance scores can be further improved, and the
model can also leverage a large number of random videos and generalize to test
videos with decent performance. Code available at
https://github.com/pangzss/pytorch-CTVSUM.
- Abstract(参考訳): ビデオ要約は、効率的なビデオブラウジングを容易にするために、ビデオ内の最も有用なフレームのサブセットを選択することを目的としている。
教師なしの方法は通常、多様性や代表性といったヒューリスティックな訓練目標に依存している。
しかし、これらの手法は、重要スコア回帰の目的を計算するために、オンライン生成した要約をブートストラップする必要がある。
このようなパイプラインは非効率であると考え,表現学習文献における対比的損失の助けを借りて,フレームレベルの重要度を直接定量化することを目指す。
対照的な損失を生かして,局所的差異,グローバル一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
画像分類タスクで事前トレーニングされた機能により、メトリクスはすでに高い品質の重要度スコアを得られ、過去の厳密なトレーニング方法よりも競争力と優れたパフォーマンスを示すことができる。
軽量なコントラスト学習プロジェクションモジュールを用いて事前学習した特徴を洗練することで、フレームレベルの重要度スコアをさらに向上させ、多数のランダムビデオを活用して、良好なパフォーマンスで映像をテストできることを示した。
コードはhttps://github.com/pangzss/pytorch-ctvsum。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文 参考訳(メタデータ) (2023-03-28T14:08:05Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。