論文の概要: Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics
- arxiv url: http://arxiv.org/abs/2008.13426v2
- Date: Fri, 29 Jan 2021 02:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 07:09:09.563096
- Title: Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics
- Title(参考訳): 時空間統計の探索による自己教師付き映像表現学習
- Authors: Jiangliu Wang, Jianbo Jiao, Linchao Bao, Shengfeng He, Wei Liu, and
Yun-hui Liu
- Abstract要約: 本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
- 参考スコア(独自算出の注目度): 74.6968179473212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel pretext task to address the self-supervised video
representation learning problem. Specifically, given an unlabeled video clip,
we compute a series of spatio-temporal statistical summaries, such as the
spatial location and dominant direction of the largest motion, the spatial
location and dominant color of the largest color diversity along the temporal
axis, etc. Then a neural network is built and trained to yield the statistical
summaries given the video frames as inputs. In order to alleviate the learning
difficulty, we employ several spatial partitioning patterns to encode rough
spatial locations instead of exact spatial Cartesian coordinates. Our approach
is inspired by the observation that human visual system is sensitive to rapidly
changing contents in the visual field, and only needs impressions about rough
spatial locations to understand the visual contents. To validate the
effectiveness of the proposed approach, we conduct extensive experiments with
four 3D backbone networks, i.e., C3D, 3D-ResNet, R(2+1)D and S3D-G. The results
show that our approach outperforms the existing approaches across these
backbone networks on four downstream video analysis tasks including action
recognition, video retrieval, dynamic scene recognition, and action similarity
labeling. The source code is publicly available at:
https://github.com/laura-wang/video_repres_sts.
- Abstract(参考訳): 本稿では,自己教師付きビデオ表現学習問題に対処する新しい前提課題を提案する。
具体的には、ラベルのないビデオクリップが与えられた場合、最大運動の空間的位置と支配方向、時間軸に沿った最大の色多様性の空間的位置と支配的な色など、時空間統計的な一連の要約を計算する。
次にニューラルネットワークを構築して、ビデオフレームを入力として与えた統計要約を生成するようにトレーニングする。
学習難易度を緩和するために,空間的分割パターンを多用し,空間的デカルト座標に代えて粗い空間位置を符号化する。
我々のアプローチは、人間の視覚系が視覚領域におけるコンテンツの変化に敏感であり、視覚内容を理解するために粗い空間的位置に関する印象のみを必要とするという観察に着想を得たものである。
提案手法の有効性を検証するため,C3D,3D-ResNet,R(2+1)D,S3D-Gの4つのバックボーンネットワークを用いて実験を行った。
提案手法は,動作認識,映像検索,動的シーン認識,行動類似性ラベル付けを含む4つの下流映像解析タスクにおいて,これらのバックボーンネットワークにおける既存手法よりも優れていた。
ソースコードはhttps://github.com/laura-wang/video_repres_stsで公開されている。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Semi-supervised 3D Video Information Retrieval with Deep Neural Network
and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。
候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。
次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文 参考訳(メタデータ) (2023-09-03T03:10:18Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Visual Descriptor Learning from Monocular Video [25.082587246288995]
完全畳み込みネットワークを訓練することにより,RGB画像上の高密度対応性を推定する手法を提案する。
提案手法は,光学的流れから相対的なラベリングを推定するコントラッシブ・ロスを用いてRGBビデオから学習する。
同じバックグラウンドを持つテストデータに対して、メソッドがうまく機能するだけでなく、新しいバックグラウンドを持つ状況にも一般化する。
論文 参考訳(メタデータ) (2020-04-15T11:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。