論文の概要: DTG-Net: Differentiated Teachers Guided Self-Supervised Video Action
Recognition
- arxiv url: http://arxiv.org/abs/2006.07609v1
- Date: Sat, 13 Jun 2020 10:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:19:55.576902
- Title: DTG-Net: Differentiated Teachers Guided Self-Supervised Video Action
Recognition
- Title(参考訳): DTG-Net:教師の自己監督型ビデオ行動認識
- Authors: Ziming Liu and Guangyu Gao and A. K. Qin and Jinyang Li
- Abstract要約: 本稿では,教師指導型自己教師ネットワーク(DTG-Net)を提案する。
DTG-Netでは、トレーニング済みのアクション関連モデルを教師指導として使用し、SSLにおける未ラベルビデオの需要を軽減するための事前知識を提供する。
DTG-Netは、2つの方法で評価される: (i) (i) (i) (i) (i) (i) (i) (ii) (ii) (ii) (ii) (ii) (i) (i) (i) (i) (i) (i) (i) ) (i) ) (i) (i) ) (i) ) (i) ) (i) (i) ) (i) (i) ) (i) (i) (i) (i) (i) (i) ) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (i)) (i) (
- 参考スコア(独自算出の注目度): 5.656194243036698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video action recognition models with complex network
architecture have archived significant improvements, but these models heavily
depend on large-scale well-labeled datasets. To reduce such dependency, we
propose a self-supervised teacher-student architecture, i.e., the
Differentiated Teachers Guided self-supervised Network (DTG-Net). In DTG-Net,
except for reducing labeled data dependency by self-supervised learning (SSL),
pre-trained action related models are used as teacher guidance providing prior
knowledge to alleviate the demand for a large number of unlabeled videos in
SSL. Specifically, leveraging the years of effort in action-related tasks,
e.g., image classification, image-based action recognition, the DTG-Net learns
the self-supervised video representation under various teacher guidance, i.e.,
those well-trained models of action-related tasks. Meanwhile, the DTG-Net is
optimized in the way of contrastive self-supervised learning. When two image
sequences are randomly sampled from the same video or different videos as the
positive or negative pairs, respectively, they are then sent to the teacher and
student networks for feature embedding. After that, the contrastive feature
consistency is defined between features embedding of each pair, i.e.,
consistent for positive pair and inconsistent for negative pairs. Meanwhile, to
reflect various teacher tasks' different guidance, we also explore different
weighted guidance on teacher tasks. Finally, the DTG-Net is evaluated in two
ways: (i) the self-supervised DTG-Net to pre-train the supervised action
recognition models with only unlabeled videos; (ii) the supervised DTG-Net to
be jointly trained with the supervised action networks in an end-to-end way.
Its performance is better than most pre-training methods but also has excellent
competitiveness compared to supervised action recognition methods.
- Abstract(参考訳): 複雑なネットワークアーキテクチャを持つ最先端のビデオアクション認識モデルは、大幅に改善されているが、これらのモデルは大規模にラベル付けされたデータセットに大きく依存している。
そこで本研究では,教師指導型自己指導型ネットワーク (dtg-net) の自己指導型教師指導型アーキテクチャを提案する。
DTG-Netでは、自己教師付き学習(SSL)によるラベル付きデータ依存性の低減を除いて、事前訓練されたアクション関連モデルは、SSL内の多数の未ラベルビデオの需要を軽減するための教師指導として使用される。
具体的には、画像分類、画像に基づく行動認識など、アクション関連タスクの長年の取り組みを活用して、DTG-Netは、教師の指導の下で、よく訓練されたアクション関連タスクのモデルである自己教師付きビデオ表現を学習する。
一方、DTG-Netは、対照的な自己教師あり学習の方法で最適化されている。
2つの画像シーケンスが正または負のペアと同じビデオまたは異なるビデオからランダムにサンプリングされると、それらは特徴埋め込みのために教師と学生ネットワークに送られる。
その後、対照的な特徴整合性は各対に埋め込まれた特徴、すなわち正の対に対して整合性、負の対に対して整合性の間に定義される。
一方,教師課題の異なる指導を反映するために,教師課題に対する重み付け指導についても検討する。
最後にdtg-netを2つの方法で評価する。
i) 自己監督型DTG-Netは、未表示のビデオのみで、監督型行動認識モデルを事前訓練する。
(ii)監視されたdtg-netは、エンドツーエンドで監視されたアクションネットワークと共同で訓練される。
その性能は、ほとんどの事前学習法より優れているが、教師付き動作認識法と比較して優れた競争力を持つ。
関連論文リスト
- Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training [32.257816070522885]
画像教師モデルを用いて,映像学生モデルを対象領域に適応させる。
UNITEは、まず自己教師付き事前訓練を使用して、ターゲットのドメインビデオ上で差別的特徴学習を促進する。
次に,ビデオ学生モデルとイメージ教師モデルを用いて,マスク付き対象データを用いた自己学習を行い,未ラベル対象ビデオのための改良された擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-12-05T17:39:19Z) - Self-Supervised Video Similarity Learning [35.512588398849395]
S$2$VSは、自己監督を伴うビデオ類似性学習手法である。
すべてのタスクで最先端のパフォーマンスを実現する単一の普遍モデルを学ぶ。
論文 参考訳(メタデータ) (2023-04-06T21:15:27Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Self-Distilled Self-Supervised Representation Learning [35.60243157730165]
自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
論文 参考訳(メタデータ) (2021-11-25T07:52:36Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。