論文の概要: Hand Pose Estimation via Multiview Collaborative Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2302.00988v1
- Date: Thu, 2 Feb 2023 10:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:28:59.916207
- Title: Hand Pose Estimation via Multiview Collaborative Self-Supervised
Learning
- Title(参考訳): 複数視点協調型自己監督学習によるハンズポーズ推定
- Authors: Xiaozheng Zheng, Chao Wen, Zhou Xue, Jingyu Wang
- Abstract要約: HaMuCoは多視点協調型自己教師型学習フレームワークである。
ノイズの多いラベル課題とマルチビューグループ思考の問題に対処するために、2段階戦略を用いる。
第1段階では、各ビューに対して独立して3次元のポーズを推定する。
第2段階では、クロスビュー関連特徴を捉えるために、クロスビュー・インタラクション・ネットワークを利用する。
- 参考スコア(独自算出の注目度): 9.338913542778744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D hand pose estimation has made significant progress in recent years.
However, the improvement is highly dependent on the emergence of large-scale
annotated datasets. To alleviate the label-hungry limitation, we propose a
multi-view collaborative self-supervised learning framework, HaMuCo, that
estimates hand pose only with pseudo labels for training. We use a two-stage
strategy to tackle the noisy label challenge and the multi-view ``groupthink''
problem. In the first stage, we estimate the 3D hand poses for each view
independently. In the second stage, we employ a cross-view interaction network
to capture the cross-view correlated features and use multi-view consistency
loss to achieve collaborative learning among views. To further enhance the
collaboration between single-view and multi-view, we fuse the results of all
views to supervise the single-view network. To summarize, we introduce
collaborative learning in two folds, the cross-view level and the multi- to
single-view level. Extensive experiments show that our method can achieve
state-of-the-art performance on multi-view self-supervised hand pose
estimation. Moreover, ablation studies verify the effectiveness of each
component. Results on multiple datasets further demonstrate the generalization
ability of our network.
- Abstract(参考訳): 3dハンドポーズ推定は近年大きく進歩している。
しかし、この改善は大規模な注釈付きデータセットの出現に大きく依存している。
ラベル・ハングリー制限を緩和するために,多視点協調型自己教師付き学習フレームワークhamucoを提案する。
私たちは2段階の戦略を用いて、ノイズの多いラベルチャレンジとマルチビューの ``groupthink''' 問題に取り組む。
第1段階では、各ビューに対する3dハンドポーズを独立して見積もる。
第2段階では、クロスビュー対応特徴を捉えるためにクロスビューインタラクションネットワークを採用し、ビュー間の協調学習を実現するためにマルチビュー一貫性損失を使用する。
シングルビューとマルチビューのコラボレーションをさらに強化するため、全ビューの結果を融合してシングルビューネットワークを監督する。
まとめると、クロスビューレベルとマルチビューからシングルビューレベルという2つのフォールドで協調学習を導入する。
本手法は多視点自己監督型ポーズ推定における最先端性能を実現することができる。
さらに、アブレーション研究は各成分の有効性を検証する。
複数のデータセットの結果はさらに,ネットワークの一般化能力を示している。
関連論文リスト
- VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation [45.085830389820956]
本研究では,多視点多人数ポーズ推定器のデータセットに対する一般化能力の評価を行う。
また、深度情報を利用した改良も検討している。
この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
論文 参考訳(メタデータ) (2024-10-24T13:28:40Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文 参考訳(メタデータ) (2021-12-27T14:34:25Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Learning View-Disentangled Human Pose Representation by Contrastive
Cross-View Mutual Information Maximization [33.36330493757669]
本研究では2次元人間のポーズから、ポーズ依存とビュー依存因子を分離する新しい表現学習手法を提案する。
異なる視点から実行された同じポーズの相互情報を最大化する相互情報(CV-MIM)を用いてネットワークを訓練する。
CV-MIMは、シングルショットのクロスビュー設定において、競合する他の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-12-02T18:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。