論文の概要: Long Short View Feature Decomposition via Contrastive Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2109.11593v1
- Date: Thu, 23 Sep 2021 18:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:13:26.579218
- Title: Long Short View Feature Decomposition via Contrastive Video
Representation Learning
- Title(参考訳): コントラスト映像表現学習による長視野特徴の分解
- Authors: Nadine Behrmann and Mohsen Fayyaz and Juergen Gall and Mehdi Noroozi
- Abstract要約: 両方の機能をキャプチャする単一の表現は、サブ最適化である、と我々は主張する。
コントラスト学習により,表現空間を定常的特徴と非定常的特徴に分解することを提案する。
定常機能は時間的に安定し、静的な属性をキャプチャするのに対し、静止でない機能は時間的に異なる属性をキャプチャする。
- 参考スコア(独自算出の注目度): 24.664748948212647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised video representation methods typically focus on the
representation of temporal attributes in videos. However, the role of
stationary versus non-stationary attributes is less explored: Stationary
features, which remain similar throughout the video, enable the prediction of
video-level action classes. Non-stationary features, which represent temporally
varying attributes, are more beneficial for downstream tasks involving more
fine-grained temporal understanding, such as action segmentation. We argue that
a single representation to capture both types of features is sub-optimal, and
propose to decompose the representation space into stationary and
non-stationary features via contrastive learning from long and short views,
i.e. long video sequences and their shorter sub-sequences. Stationary features
are shared between the short and long views, while non-stationary features
aggregate the short views to match the corresponding long view. To empirically
verify our approach, we demonstrate that our stationary features work
particularly well on an action recognition downstream task, while our
non-stationary features perform better on action segmentation. Furthermore, we
analyse the learned representations and find that stationary features capture
more temporally stable, static attributes, while non-stationary features
encompass more temporally varying ones.
- Abstract(参考訳): 自己監督型ビデオ表現法は通常、ビデオにおける時間属性の表現に焦点を当てる。
しかし、静止特性と非静止特性の役割は明らかにされていない: 静止特性はビデオ全体を通して類似しており、ビデオレベルのアクションクラスの予測を可能にする。
時間的に異なる属性を表す非定常特徴は、アクションセグメンテーションのようなよりきめ細かい時間的理解を伴う下流タスクにとってより有益である。
両特徴を捕捉する単一の表現は準最適であり,長大・短大からのコントラスト学習,すなわち長大の映像シーケンスと短短のサブシーケンスから,静止的・非定常的特徴へと表現空間を分解することを提案する。
静止機能はショートビューとロングビューの間で共有され、非静止ビューは、対応するロングビューにマッチするショートビューを集約する。
提案手法を実証的に検証するため,動作認識下流タスクでは静止機能が特にうまく動作し,非定常機能は動作セグメンテーションにおいてよりよく機能することを示す。
さらに、学習した表現を分析し、定常的特徴が時間的に安定な静的属性を捕えるのに対し、静止的でない特徴は時間的に変化する特徴を捕える。
関連論文リスト
- No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。