論文の概要: Probabilistic Representations for Video Contrastive Learning
- arxiv url: http://arxiv.org/abs/2204.03946v1
- Date: Fri, 8 Apr 2022 09:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:08:52.506221
- Title: Probabilistic Representations for Video Contrastive Learning
- Title(参考訳): ビデオコントラスト学習のための確率的表現
- Authors: Jungin Park, Jiyoung Lee, Ig-Jae Kim, Kwanghoon Sohn
- Abstract要約: 本稿では,確率的表現と対比学習を橋渡しする自己教師型表現学習法を提案する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避し、クリップの拡張ビューを生成することができる。
- 参考スコア(独自算出の注目度): 64.47354178088784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Probabilistic Video Contrastive Learning, a
self-supervised representation learning method that bridges contrastive
learning with probabilistic representation. We hypothesize that the clips
composing the video have different distributions in short-term duration, but
can represent the complicated and sophisticated video distribution through
combination in a common embedding space. Thus, the proposed method represents
video clips as normal distributions and combines them into a Mixture of
Gaussians to model the whole video distribution. By sampling embeddings from
the whole video distribution, we can circumvent the careful sampling strategy
or transformations to generate augmented views of the clips, unlike previous
deterministic methods that have mainly focused on such sample generation
strategies for contrastive learning. We further propose a stochastic
contrastive loss to learn proper video distributions and handle the inherent
uncertainty from the nature of the raw video. Experimental results verify that
our probabilistic embedding stands as a state-of-the-art video representation
learning for action recognition and video retrieval on the most popular
benchmarks, including UCF101 and HMDB51.
- Abstract(参考訳): 本稿では,コントラスト学習と確率的表現を橋渡しする自己教師あり表現学習手法であるprobabilistic video contrastive learningを提案する。
ビデオを構成するクリップは、短い期間で異なる分布を持つが、共通の埋め込み空間で組み合わせることで、複雑で洗練された映像分布を表現できると仮定する。
そこで,提案手法では,ビデオクリップを正規分布として表現し,ガウス分布を混合して映像分布全体をモデル化する。
ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避してクリップの強化ビューを生成することができる。
さらに,適切な映像分布を学習し,生映像の性質から固有の不確実性を扱う確率的コントラスト損失を提案する。
実験結果から,UCF101やHMDB51など,最もポピュラーなベンチマークにおいて,動作認識と映像検索のための最先端のビデオ表現学習として,我々の確率的埋め込みが有効であることが確認された。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised
Video Representation Learning [7.27708818665289]
本稿では,自己教師付きビデオ表現学習における確率的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。
ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトし、正規化される。
最後に、ポジティブペアは、静的なキューに対する表現バイアスの問題を軽減するために、対照的な学習のためのモーション保存ビデオによって構成される。
論文 参考訳(メタデータ) (2021-12-07T16:21:22Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。