論文の概要: SELF-VS: Self-supervised Encoding Learning For Video Summarization
- arxiv url: http://arxiv.org/abs/2303.15993v1
- Date: Tue, 28 Mar 2023 14:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 14:59:49.070836
- Title: SELF-VS: Self-supervised Encoding Learning For Video Summarization
- Title(参考訳): SELF-VS:ビデオ要約のための自己教師型エンコーディング学習
- Authors: Hojjat Mokhtarabadi, Kave Bahraman, Mehrdad HosseinZadeh, Mahdi
Eftekhari
- Abstract要約: 本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
- 参考スコア(独自算出の注目度): 6.21295508577576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its wide range of applications, video summarization is still held
back by the scarcity of extensive datasets, largely due to the labor-intensive
and costly nature of frame-level annotations. As a result, existing video
summarization methods are prone to overfitting. To mitigate this challenge, we
propose a novel self-supervised video representation learning method using
knowledge distillation to pre-train a transformer encoder. Our method matches
its semantic video representation, which is constructed with respect to frame
importance scores, to a representation derived from a CNN trained on video
classification. Empirical evaluations on correlation-based metrics, such as
Kendall's $\tau$ and Spearman's $\rho$ demonstrate the superiority of our
approach compared to existing state-of-the-art methods in assigning relative
scores to the input frames.
- Abstract(参考訳): 幅広い応用にもかかわらず、ビデオ要約は、フレームレベルのアノテーションの労働集約的かつコストのかかる性質のため、広範囲なデータセットの不足によって、いまだに抑制されている。
その結果、既存のビデオ要約手法は過度に適合しがちである。
この課題を軽減するために,知識蒸留を用いた自己教師付きビデオ表現学習手法を提案し,トランスフォーマーエンコーダの事前学習を行う。
本手法は,映像分類を訓練したcnnから得られた表現と,フレーム重要度スコアに基づいて構築した意味的映像表現と一致する。
Kendallの$\tau$やSpearmanの$\rho$のような相関に基づくメトリクスに関する実証的な評価は、入力フレームに相対スコアを割り当てる既存の最先端手法と比較して、我々のアプローチの優位性を示している。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Masked Autoencoder for Unsupervised Video Summarization [10.853922245706716]
自己教師付き学習(SSL)は、複数の下流タスクに対する堅牢性と柔軟性が認められている。
教師なしの自己教師型オートエンコーダは、ビデオ要約モデルとして利用するために、追加の下流アーキテクチャ設計や微調整の重みを必要としない。
本手法は,様々な実験環境下での有効性を示すために,主要な教師なしビデオ要約ベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-02T09:44:45Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。