論文の概要: Exploring Temporal Granularity in Self-Supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2112.04480v1
- Date: Wed, 8 Dec 2021 18:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:32:35.319660
- Title: Exploring Temporal Granularity in Self-Supervised Video Representation
Learning
- Title(参考訳): 自己監督型映像表現学習における時間的粒度探索
- Authors: Rui Qian, Yeqing Li, Liangzhe Yuan, Boqing Gong, Ting Liu, Matthew
Brown, Serge Belongie, Ming-Hsuan Yang, Hartwig Adam, Yin Cui
- Abstract要約: 本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
- 参考スコア(独自算出の注目度): 99.02421058335533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a self-supervised learning framework named TeG to explore
Temporal Granularity in learning video representations. In TeG, we sample a
long clip from a video and a short clip that lies inside the long clip. We then
extract their dense temporal embeddings. The training objective consists of two
parts: a fine-grained temporal learning objective to maximize the similarity
between corresponding temporal embeddings in the short clip and the long clip,
and a persistent temporal learning objective to pull together global embeddings
of the two clips. Our study reveals the impact of temporal granularity with
three major findings. 1) Different video tasks may require features of
different temporal granularities. 2) Intriguingly, some tasks that are widely
considered to require temporal awareness can actually be well addressed by
temporally persistent features. 3) The flexibility of TeG gives rise to
state-of-the-art results on 8 video benchmarks, outperforming supervised
pre-training in most cases.
- Abstract(参考訳): 本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGでは、ビデオから長いクリップをサンプリングし、長いクリップの中に短いクリップを配置します。
そして、その密集した時間的埋め込みを抽出する。
訓練対象は2つの部分から構成される: 短いクリップと長いクリップに対応する時間的埋め込みの類似性を最大化する微粒な時間的学習目標と、2つのクリップのグローバルな埋め込みをまとめる持続的な時間的学習目標である。
本研究は, 時間的粒度の影響を3つの大きな知見で明らかにする。
1) 異なる映像課題は, 時間的粒度の異なる特徴を必要とする。
2)興味深いことに、時間的認識を必要とすると思われるタスクは、時間的持続性の特徴によって実際にうまく対処できる。
3) TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
関連論文リスト
- TimesURL: Self-supervised Contrastive Learning for Universal Time Series
Representation Learning [31.458689807334228]
時系列表現に対処するために,TimesURL という新しい自己教師型フレームワークを提案する。
具体的には、時間的特性を一定に保つために、まず周波数時間に基づく拡張を導入する。
また、コントラスト学習を改善するために、特別なタイプのハードネガティブとしてダブルユニバーサムを構築します。
論文 参考訳(メタデータ) (2023-12-25T12:23:26Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。