論文の概要: Self-Supervised Video Representation Learning by Video Incoherence
Detection
- arxiv url: http://arxiv.org/abs/2109.12493v1
- Date: Sun, 26 Sep 2021 04:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:28:38.904171
- Title: Self-Supervised Video Representation Learning by Video Incoherence
Detection
- Title(参考訳): ビデオインコヒーレンス検出による自己教師付き映像表現学習
- Authors: Haozhi Cao, Yuecong Xu, Jianfei Yang, Kezhi Mao, Lihua Xie, Jianxiong
Yin, Simon See
- Abstract要約: 本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
- 参考スコア(独自算出の注目度): 28.540645395066434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel self-supervised method that leverages
incoherence detection for video representation learning. It roots from the
observation that visual systems of human beings can easily identify video
incoherence based on their comprehensive understanding of videos. Specifically,
the training sample, denoted as the incoherent clip, is constructed by multiple
sub-clips hierarchically sampled from the same raw video with various lengths
of incoherence between each other. The network is trained to learn high-level
representation by predicting the location and length of incoherence given the
incoherent clip as input. Additionally, intra-video contrastive learning is
introduced to maximize the mutual information between incoherent clips from the
same raw video. We evaluate our proposed method through extensive experiments
on action recognition and video retrieval utilizing various backbone networks.
Experiments show that our proposed method achieves state-of-the-art performance
across different backbone networks and different datasets compared with
previous coherence-based methods.
- Abstract(参考訳): 本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に由来する。
具体的には、同一の生ビデオから複数のサブクリップを階層的にサンプリングし、互いに無コヒーレンスの長さの異なるトレーニングサンプルを非コヒーレントクリップとして構成する。
ネットワークは、アンコヒーレンスクリップを入力として、アンコヒーレンスの位置と長さを予測することにより、ハイレベルな表現を学ぶように訓練される。
また,ビデオ内コントラスト学習を導入し,同一生映像からの非一貫性クリップ間の相互情報を最大化する。
提案手法は,様々なバックボーンネットワークを用いた行動認識と映像検索に関する広範な実験により評価される。
提案手法は,従来のコヒーレンスに基づく手法と比較して,異なるバックボーンネットワークと異なるデータセットにまたがる最先端の性能を実現することを示す。
関連論文リスト
- SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文 参考訳(メタデータ) (2023-03-28T14:08:05Z) - Probabilistic Representations for Video Contrastive Learning [64.47354178088784]
本稿では,確率的表現と対比学習を橋渡しする自己教師型表現学習法を提案する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避し、クリップの拡張ビューを生成することができる。
論文 参考訳(メタデータ) (2022-04-08T09:09:30Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Spatio-Temporal Perturbations for Video Attribution [33.19422909074655]
この属性法は、不透明なニューラルネットワークを視覚的に解釈するための方向を提供する。
本稿では,多様な映像理解ネットワークに適合する汎用属性法について検討する。
本稿では,新たに提案した信頼度測定によって検証される信頼性のある客観的指標について紹介する。
論文 参考訳(メタデータ) (2021-09-01T07:44:16Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。