論文の概要: HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2302.00988v2
- Date: Tue, 15 Aug 2023 04:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:17:39.875490
- Title: HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised
Learning
- Title(参考訳): HaMuCo:多視点協調型自己監督学習による手振り推定
- Authors: Xiaozheng Zheng, Chao Wen, Zhou Xue, Pengfei Ren, Jingyu Wang
- Abstract要約: HaMuCoは、多視点擬似2Dラベルから一視点手ポーズ推定器を学習する自己教師型学習フレームワークである。
本稿では, クロスビュー対応機能を利用して, シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。
提案手法は,多視点自己監督型ポーズ推定における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 19.432034725468217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 3D hand pose estimation have shown promising results,
but its effectiveness has primarily relied on the availability of large-scale
annotated datasets, the creation of which is a laborious and costly process. To
alleviate the label-hungry limitation, we propose a self-supervised learning
framework, HaMuCo, that learns a single-view hand pose estimator from
multi-view pseudo 2D labels. However, one of the main challenges of
self-supervised learning is the presence of noisy labels and the ``groupthink''
effect from multiple views. To overcome these issues, we introduce a cross-view
interaction network that distills the single-view estimator by utilizing the
cross-view correlated features and enforcing multi-view consistency to achieve
collaborative learning. Both the single-view estimator and the cross-view
interaction network are trained jointly in an end-to-end manner. Extensive
experiments show that our method can achieve state-of-the-art performance on
multi-view self-supervised hand pose estimation. Furthermore, the proposed
cross-view interaction network can also be applied to hand pose estimation from
multi-view input and outperforms previous methods under the same settings.
- Abstract(参考訳): 近年の3次元手ポーズ推定の進歩は有望な結果を示しているが、その効果は主に大規模注釈付きデータセットの利用可能性に依存しており、その作成は手間とコストのかかるプロセスである。
ラベル・ハングリー制限を緩和するために,多視点擬似2dラベルから単視点ハンドポーズ推定器を学習する自己教師付き学習フレームワークhamucoを提案する。
しかし、自己指導型学習の主な課題の1つは、ノイズラベルの存在と複数の視点から「グループ思考」の効果である。
これらの課題を克服するために,クロスビュー相関機能を利用し,マルチビュー一貫性を強制することにより協調学習を実現する,シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。
シングルビュー推定器とクロスビュー相互作用ネットワークは、エンドツーエンドで共同で訓練される。
本手法は多視点自己監督型ポーズ推定における最先端性能を実現することができる。
さらに,提案するクロスビューインタラクションネットワークは,マルチビュー入力からのハンドポーズ推定にも適用可能であり,同一設定下では従来の手法を上回っている。
関連論文リスト
- VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation [45.085830389820956]
本研究では,多視点多人数ポーズ推定器のデータセットに対する一般化能力の評価を行う。
また、深度情報を利用した改良も検討している。
この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
論文 参考訳(メタデータ) (2024-10-24T13:28:40Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Active Learning with Pseudo-Labels for Multi-View 3D Pose Estimation [18.768030475943213]
マルチビュー環境での3次元ポーズ推定問題に対するアクティブラーニングの改良を行った。
既存の単一ビューAL戦略を効率的に拡張できるフレームワークを開発する。
我々は,自己学習の形式である予測擬似ラベルを組み込むことにより,さらなる性能向上を示す。
論文 参考訳(メタデータ) (2021-12-27T14:34:25Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Learning View-Disentangled Human Pose Representation by Contrastive
Cross-View Mutual Information Maximization [33.36330493757669]
本研究では2次元人間のポーズから、ポーズ依存とビュー依存因子を分離する新しい表現学習手法を提案する。
異なる視点から実行された同じポーズの相互情報を最大化する相互情報(CV-MIM)を用いてネットワークを訓練する。
CV-MIMは、シングルショットのクロスビュー設定において、競合する他の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-12-02T18:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。