論文の概要: Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining
- arxiv url: http://arxiv.org/abs/2504.20800v1
- Date: Tue, 29 Apr 2025 14:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.926943
- Title: Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining
- Title(参考訳): Adept: 離散コサイン変換マップと人中心的事前訓練のキーポイントを用いたアノテーション記述補助タスク
- Authors: Weizhen He, Yunfeng Yan, Shixiang Tang, Yiheng Deng, Yangyang Zhong, Pengxin Luo, Donglian Qi,
- Abstract要約: 本稿では,人中心型事前学習法のデータのスケーラビリティを向上する。
離散コサイン変換(DCT)による周波数空間におけるRGB画像の意味情報の検討
また,キーポイントとDCTマップを用いてRGB画像抽出装置を強制する補助タスクを記述した新しいアノテーションを提案する。
- 参考スコア(独自算出の注目度): 12.950323493528508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric perception is the core of diverse computer vision tasks and has been a long-standing research focus. However, previous research studied these human-centric tasks individually, whose performance is largely limited to the size of the public task-specific datasets. Recent human-centric methods leverage the additional modalities, e.g., depth, to learn fine-grained semantic information, which limits the benefit of pretraining models due to their sensitivity to camera views and the scarcity of RGB-D data on the Internet. This paper improves the data scalability of human-centric pretraining methods by discarding depth information and exploring semantic information of RGB images in the frequency space by Discrete Cosine Transform (DCT). We further propose new annotation denoising auxiliary tasks with keypoints and DCT maps to enforce the RGB image extractor to learn fine-grained semantic information of human bodies. Our extensive experiments show that when pretrained on large-scale datasets (COCO and AIC datasets) without depth annotation, our model achieves better performance than state-of-the-art methods by +0.5 mAP on COCO, +1.4 PCKh on MPII and -0.51 EPE on Human3.6M for pose estimation, by +4.50 mIoU on Human3.6M for human parsing, by -3.14 MAE on SHA and -0.07 MAE on SHB for crowd counting, by +1.1 F1 score on SHA and +0.8 F1 score on SHA for crowd localization, and by +0.1 mAP on Market1501 and +0.8 mAP on MSMT for person ReID. We also validate the effectiveness of our method on MPII+NTURGBD datasets
- Abstract(参考訳): 人間中心の知覚は多様なコンピュータビジョンのタスクの中核であり、長い間研究に重点を置いてきた。
しかし、以前の研究では、これらの人間中心のタスクを個別に研究しており、そのパフォーマンスは公開タスク固有のデータセットのサイズに大きく制限されている。
近年の人間中心の手法では、カメラビューに対する感度とインターネット上のRGB-Dデータの不足による事前学習モデルの利点を制限する、細粒度のセマンティック情報を学習するために、追加のモダリティ(例えば深さ)を活用している。
本稿では、深度情報を捨て、離散コサイン変換(DCT)により、周波数空間におけるRGB画像の意味情報を探索することにより、人間中心の事前学習法のデータのスケーラビリティを向上させる。
さらに,キーポイントとDCTマップを付加した補助タスクを記述した新たなアノテーションを提案し,RGB画像抽出器を用いて人体の微細な意味情報を学習する。
大規模なデータセット(COCOおよびAICデータセット)を奥行きアノテーションなしで事前トレーニングした場合、我々のモデルは、COCO上の+0.5 mAP、MPII上の+1.4 PCKh、Human3.6M上の-0.51 EPE、Human3.6Mの+4.50 mIoU、SHA上の-3.14 MAE、SHB上の-0.07 MAE、SHA上の+1.1 F1スコア、マーケット1501の+0.1 mAP、ReIDの+0.8 mAPよりも優れたパフォーマンスが得られる。
また,MPII+NTURGBDデータセットに対する提案手法の有効性も検証した。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning [29.037799937729687]
2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-24T21:55:34Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - SimPose: Effectively Learning DensePose and Surface Normals of People
from Simulated Data [7.053519629075887]
本稿では,1画素あたり2.5Dと3次元回帰表現の難易度を学習する手法を提案する。
2.5DPose推定タスクと3次元人体表面の正規分布推定タスクに対して,強力なsim-to-real領域の一般化を得た。
提案手法は既存の領域適応手法と相補的であり,他の高密度画素間ポーズ推定問題にも適用可能である。
論文 参考訳(メタデータ) (2020-07-30T14:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。