論文の概要: HomE: Homography-Equivariant Video Representation Learning
- arxiv url: http://arxiv.org/abs/2306.01623v1
- Date: Fri, 2 Jun 2023 15:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:32:20.925978
- Title: HomE: Homography-Equivariant Video Representation Learning
- Title(参考訳): HomE:Homography-Equivariant Video Representation Learning
- Authors: Anirudh Sriram, Adrien Gaidon, Jiajun Wu, Juan Carlos Niebles, Li
Fei-Fei, Ehsan Adeli
- Abstract要約: マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
- 参考スコア(独自算出の注目度): 62.89516761473129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised representation learning have enabled more
efficient and robust model performance without relying on extensive labeled
data. However, most works are still focused on images, with few working on
videos and even fewer on multi-view videos, where more powerful inductive
biases can be leveraged for self-supervision. In this work, we propose a novel
method for representation learning of multi-view videos, where we explicitly
model the representation space to maintain Homography Equivariance (HomE). Our
method learns an implicit mapping between different views, culminating in a
representation space that maintains the homography relationship between
neighboring views. We evaluate our HomE representation via action recognition
and pedestrian intent prediction as downstream tasks. On action classification,
our method obtains 96.4% 3-fold accuracy on the UCF101 dataset, better than
most state-of-the-art self-supervised learning methods. Similarly, on the STIP
dataset, we outperform the state-of-the-art by 6% for pedestrian intent
prediction one second into the future while also obtaining an accuracy of 91.2%
for pedestrian action (cross vs. not-cross) classification. Code is available
at https://github.com/anirudhs123/HomE.
- Abstract(参考訳): 自己教師付き表現学習の最近の進歩は、広範囲なラベル付きデータに頼ることなく、より効率的で堅牢なモデル性能を実現している。
しかし、ほとんどの作品は今でも画像に焦点を当てており、ビデオにはほとんど取り組みませんし、マルチビュービデオにもあまり関心がなく、より強力なインダクティブバイアスを自己スーパービジョンに活用することができます。
本研究では,Homography Equivariance (HomE) を維持するために,表現空間を明示的にモデル化する多視点ビデオの表現学習手法を提案する。
提案手法は異なるビュー間の暗黙的なマッピングを学習し,隣接ビュー間のホモグラフィ関係を維持する表現空間に到達する。
我々は,行動認識と歩行者意図予測を下流課題として評価する。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
同様に、STIPデータセットでは、歩行者意図予測を1秒で6%上回り、歩行者行動(横断的対横断的)分類では91.2%の精度を得る。
コードはhttps://github.com/anirudhs123/HomEで入手できる。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。