論文の概要: Exploring Temporal Granularity in Self-Supervised Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2112.04480v1
- Date: Wed, 8 Dec 2021 18:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:32:35.319660
- Title: Exploring Temporal Granularity in Self-Supervised Video Representation
Learning
- Title(参考訳): 自己監督型映像表現学習における時間的粒度探索
- Authors: Rui Qian, Yeqing Li, Liangzhe Yuan, Boqing Gong, Ting Liu, Matthew
Brown, Serge Belongie, Ming-Hsuan Yang, Hartwig Adam, Yin Cui
- Abstract要約: 本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
- 参考スコア(独自算出の注目度): 99.02421058335533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a self-supervised learning framework named TeG to explore
Temporal Granularity in learning video representations. In TeG, we sample a
long clip from a video and a short clip that lies inside the long clip. We then
extract their dense temporal embeddings. The training objective consists of two
parts: a fine-grained temporal learning objective to maximize the similarity
between corresponding temporal embeddings in the short clip and the long clip,
and a persistent temporal learning objective to pull together global embeddings
of the two clips. Our study reveals the impact of temporal granularity with
three major findings. 1) Different video tasks may require features of
different temporal granularities. 2) Intriguingly, some tasks that are widely
considered to require temporal awareness can actually be well addressed by
temporally persistent features. 3) The flexibility of TeG gives rise to
state-of-the-art results on 8 video benchmarks, outperforming supervised
pre-training in most cases.
- Abstract(参考訳): 本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGでは、ビデオから長いクリップをサンプリングし、長いクリップの中に短いクリップを配置します。
そして、その密集した時間的埋め込みを抽出する。
訓練対象は2つの部分から構成される: 短いクリップと長いクリップに対応する時間的埋め込みの類似性を最大化する微粒な時間的学習目標と、2つのクリップのグローバルな埋め込みをまとめる持続的な時間的学習目標である。
本研究は, 時間的粒度の影響を3つの大きな知見で明らかにする。
1) 異なる映像課題は, 時間的粒度の異なる特徴を必要とする。
2)興味深いことに、時間的認識を必要とすると思われるタスクは、時間的持続性の特徴によって実際にうまく対処できる。
3) TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
関連論文リスト
- Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - TimesURL: Self-supervised Contrastive Learning for Universal Time Series
Representation Learning [31.458689807334228]
時系列表現に対処するために,TimesURL という新しい自己教師型フレームワークを提案する。
具体的には、時間的特性を一定に保つために、まず周波数時間に基づく拡張を導入する。
また、コントラスト学習を改善するために、特別なタイプのハードネガティブとしてダブルユニバーサムを構築します。
論文 参考訳(メタデータ) (2023-12-25T12:23:26Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。