論文の概要: Learning View-Disentangled Human Pose Representation by Contrastive
Cross-View Mutual Information Maximization
- arxiv url: http://arxiv.org/abs/2012.01405v2
- Date: Fri, 26 Mar 2021 04:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:56:07.470211
- Title: Learning View-Disentangled Human Pose Representation by Contrastive
Cross-View Mutual Information Maximization
- Title(参考訳): コントラストクロスビュー相互情報最大化による対角的人物ポーズ表現の学習
- Authors: Long Zhao, Yuxiao Wang, Jiaping Zhao, Liangzhe Yuan, Jennifer J. Sun,
Florian Schroff, Hartwig Adam, Xi Peng, Dimitris Metaxas, Ting Liu
- Abstract要約: 本研究では2次元人間のポーズから、ポーズ依存とビュー依存因子を分離する新しい表現学習手法を提案する。
異なる視点から実行された同じポーズの相互情報を最大化する相互情報(CV-MIM)を用いてネットワークを訓練する。
CV-MIMは、シングルショットのクロスビュー設定において、競合する他の手法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 33.36330493757669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel representation learning method to disentangle
pose-dependent as well as view-dependent factors from 2D human poses. The
method trains a network using cross-view mutual information maximization
(CV-MIM) which maximizes mutual information of the same pose performed from
different viewpoints in a contrastive learning manner. We further propose two
regularization terms to ensure disentanglement and smoothness of the learned
representations. The resulting pose representations can be used for cross-view
action recognition. To evaluate the power of the learned representations, in
addition to the conventional fully-supervised action recognition settings, we
introduce a novel task called single-shot cross-view action recognition. This
task trains models with actions from only one single viewpoint while models are
evaluated on poses captured from all possible viewpoints. We evaluate the
learned representations on standard benchmarks for action recognition, and show
that (i) CV-MIM performs competitively compared with the state-of-the-art
models in the fully-supervised scenarios; (ii) CV-MIM outperforms other
competing methods by a large margin in the single-shot cross-view setting;
(iii) and the learned representations can significantly boost the performance
when reducing the amount of supervised training data. Our code is made publicly
available at
https://github.com/google-research/google-research/tree/master/poem
- Abstract(参考訳): 本研究では,2次元のポーズから視点依存とポーズ依存を分離する新しい表現学習法を提案する。
異なる視点から実行される同じポーズの相互情報をコントラスト学習方法で最大化する、相互情報最大化(CV-MIM)を用いてネットワークを訓練する。
さらに,学習表現の絡み合いと滑らかさを保証するために,二つの正規化項を提案する。
得られたポーズ表現は、クロスビューアクション認識に使用できる。
学習表現のパワーを評価するために,従来の完全教師付き動作認識設定に加えて,単発クロスビュー動作認識と呼ばれる新しいタスクを導入する。
このタスクは、1つの視点からのみアクションを持つモデルを訓練し、すべての可能な視点からキャプチャされたポーズでモデルを評価する。
動作認識のための標準ベンチマークにおける学習された表現を評価し, (i) CV-MIMが, (ii) CV-MIMが, 教師付きトレーニングデータの量を減らすことで, 他の競合手法より優れており, (iii) 学習された表現は, 教師付きトレーニングデータの量を減らすことで, 性能を大幅に向上させることができることを示す。
私たちのコードはhttps://github.com/google-research/google-research/tree/master/poemで公開されています。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。