論文の概要: Controllable Augmentations for Video Representation Learning
- arxiv url: http://arxiv.org/abs/2203.16632v2
- Date: Fri, 1 Apr 2022 06:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 11:07:08.292036
- Title: Controllable Augmentations for Video Representation Learning
- Title(参考訳): 映像表現学習のための制御可能な拡張
- Authors: Rui Qian, Weiyao Lin, John See, Dian Li
- Abstract要約: 本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
- 参考スコア(独自算出の注目度): 34.79719112810065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on self-supervised video representation learning. Most
existing approaches follow the contrastive learning pipeline to construct
positive and negative pairs by sampling different clips. However, this
formulation tends to bias to static background and have difficulty establishing
global temporal structures. The major reason is that the positive pairs, i.e.,
different clips sampled from the same video, have limited temporal receptive
field, and usually share similar background but differ in motions. To address
these problems, we propose a framework to jointly utilize local clips and
global videos to learn from detailed region-level correspondence as well as
general long-term temporal relations. Based on a set of controllable
augmentations, we achieve accurate appearance and motion pattern alignment
through soft spatio-temporal region contrast. Our formulation is able to avoid
the low-level redundancy shortcut by mutual information minimization to improve
the generalization. We also introduce local-global temporal order dependency to
further bridge the gap between clip-level and video-level representations for
robust temporal modeling. Extensive experiments demonstrate that our framework
is superior on three video benchmarks in action recognition and video
retrieval, capturing more accurate temporal dynamics.
- Abstract(参考訳): 本稿では,自己教師型ビデオ表現学習に焦点を当てた。
既存のアプローチのほとんどは、異なるクリップをサンプリングすることでポジティブなペアとネガティブなペアを構築するためのコントラスト学習パイプラインに従っている。
しかし、この定式化は静的背景に偏りがあり、グローバルな時間構造を確立するのが困難である。
主な理由は、正のペア、すなわち同じビデオからサンプリングされた異なるクリップは、時間的受容野が限られており、通常同様の背景を共有するが、動きが異なるためである。
そこで本研究では,局所クリップとグローバル動画を共同で活用し,地域レベルの詳細な対応や長期的関係から学ぶための枠組みを提案する。
制御可能な拡張のセットに基づいて,ソフト時空間コントラストによる正確な外観と動きパターンのアライメントを実現する。
提案方式は,相互情報最小化によって低レベルの冗長性近道を避け,一般化を改善できる。
また,ロバストな時間モデリングのためのクリップレベル表現とビデオレベルの表現のギャップを埋めるために,局所的グローバル時間次依存性を導入する。
広範な実験により,我々は,行動認識と映像検索における3つのビデオベンチマークにおいて,より正確な時間的ダイナミクスを捉えたフレームワークが優れていることを実証した。
関連論文リスト
- Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Exploring Temporal Granularity in Self-Supervised Video Representation
Learning [99.02421058335533]
本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
論文 参考訳(メタデータ) (2021-12-08T18:58:42Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Video Contrastive Learning with Global Context [37.966950264445394]
正のペアを定式化するためのセグメントに基づく新しいビデオレベルのコントラスト学習手法を提案する。
我々の定式化は、ビデオの中のグローバルなコンテキストをキャプチャできるので、時間的コンテンツの変化が堅牢になる。
論文 参考訳(メタデータ) (2021-08-05T16:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。