論文の概要: TransRank: Self-supervised Video Representation Learning via
Ranking-based Transformation Recognition
- arxiv url: http://arxiv.org/abs/2205.02028v1
- Date: Wed, 4 May 2022 12:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:23:46.764294
- Title: TransRank: Self-supervised Video Representation Learning via
Ranking-based Transformation Recognition
- Title(参考訳): TransRank: ランク付けに基づく変換認識による自己教師型ビデオ表現学習
- Authors: Haodong Duan, Nanxuan Zhao, Kai Chen, Dahua Lin
- Abstract要約: 本稿では,RecogTransが意味的関連タスクと時間的関連下流タスクの両方において大きな可能性を観察する。
ハードラベルの分類に基づいて、既存のRecogTransアプローチは事前トレーニングにおいてノイズの多い監視信号に悩まされる。
この問題を緩和するために、ランク付け式における変換を認識する統一的なフレームワークであるTransRankを開発した。
- 参考スコア(独自算出の注目度): 73.7566539108205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing transformation types applied to a video clip (RecogTrans) is a
long-established paradigm for self-supervised video representation learning,
which achieves much inferior performance compared to instance discrimination
approaches (InstDisc) in recent works. However, based on a thorough comparison
of representative RecogTrans and InstDisc methods, we observe the great
potential of RecogTrans on both semantic-related and temporal-related
downstream tasks. Based on hard-label classification, existing RecogTrans
approaches suffer from noisy supervision signals in pre-training. To mitigate
this problem, we developed TransRank, a unified framework for recognizing
Transformations in a Ranking formulation. TransRank provides accurate
supervision signals by recognizing transformations relatively, consistently
outperforming the classification-based formulation. Meanwhile, the unified
framework can be instantiated with an arbitrary set of temporal or spatial
transformations, demonstrating good generality. With a ranking-based
formulation and several empirical practices, we achieve competitive performance
on video retrieval and action recognition. Under the same setting, TransRank
surpasses the previous state-of-the-art method by 6.4% on UCF101 and 8.3% on
HMDB51 for action recognition (Top1 Acc); improves video retrieval on UCF101 by
20.4% (R@1). The promising results validate that RecogTrans is still a worth
exploring paradigm for video self-supervised learning. Codes will be released
at https://github.com/kennymckormick/TransRank.
- Abstract(参考訳): ビデオクリップ(RecogTrans)に適用される変換のタイプを認識することは,近年のインスタンス識別手法(InstDisc)と比較して非常に劣る,自己教師付きビデオ表現学習の長年のパラダイムである。
しかし,RecogTrans と InstDisc の手法を徹底的に比較した結果,RecogTrans が意味的および時間的の両方の下流タスクにおいて持つ大きな可能性について考察した。
ハードラベル分類に基づいて、既存のrecogtransアプローチはトレーニング前のノイズの多い監視信号に苦しむ。
この問題を軽減するために,ランキング定式化における変換認識のための統一フレームワークであるtransrankを開発した。
TransRankは変換を相対的に認識することで正確な監視信号を提供する。
一方、統一されたフレームワークは任意の時間的または空間的変換の集合でインスタンス化でき、良い一般性を示している。
ランキングに基づく定式化といくつかの経験的実践により,ビデオ検索と行動認識の競争性能が向上する。
同じ条件下で、TransRankは従来の最先端手法を6.4%、HMDB51では8.3%、UCF101では20.4%(R@1)に上回っている。
有望な結果は、RecogTransがビデオの自己教師型学習のパラダイムであることを示すものだ。
コードはhttps://github.com/kennymckormick/transrankでリリースされる。
関連論文リスト
- kTrans: Knowledge-Aware Transformer for Binary Code Embedding [15.361622199889263]
我々は,知識を意識したバイナリコード埋め込みを生成するために,トランスフォーマーベースの新しいアプローチ,すなわちkTransを提案する。
生成した埋め込みを外部検出と可視化で検査し、kTransを3つの下流タスクに適用する:バイナリコード類似度検出(BCSD)、FTR(Function Type Recovery)、ICR(Indirect Call Recognition)。
評価の結果、kTransは高品質なバイナリコード埋め込みを生成でき、それぞれ5.2%、6.8%、12.6%のダウンストリームタスクに対するSOTA(State-of-the-art)アプローチを上回っている。
論文 参考訳(メタデータ) (2023-08-24T09:07:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Transfer of Representations to Video Label Propagation: Implementation
Factors Matter [31.030799003595522]
特徴抽出とラベル伝搬における重要な実装要因の影響について検討する。
映像ベースの通信手段を静止画像ベースで拡張することで、さらなる性能向上が期待できることを示す。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
論文 参考訳(メタデータ) (2022-03-10T18:58:22Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition [15.701647552427708]
整合正則化に基づく高次特徴写像に基づく代理監視信号を得るための新しい手法を提案する。
本手法は,動作認識のための最先端の自己教師型学習法と比較して,大幅に改善されている。
論文 参考訳(メタデータ) (2020-08-05T12:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。