論文の概要: Rethinking Self-Supervised Visual Representation Learning in
Pre-training for 3D Human Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2303.05370v1
- Date: Thu, 9 Mar 2023 16:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:15:35.404781
- Title: Rethinking Self-Supervised Visual Representation Learning in
Pre-training for 3D Human Pose and Shape Estimation
- Title(参考訳): 事前学習における自己監督型視覚表現学習の再考と形状推定
- Authors: Hongsuk Choi, Hyeongjin Nam, Taeryung Lee, Gyeongsik Moon, Kyoung Mu
Lee
- Abstract要約: 自己教師付き表現学習(SSL)法は、オブジェクト検出などの視覚タスクのためのImageNet分類前トレーニングよりも優れている。
我々は、SSLの効果を実証的に研究し分析し、3DHPSEの事前学習方法と比較した。
我々の観察では、現在のSSLの3DHPSEへの初歩的な適用に挑戦し、事前トレーニングの側面において、他のデータ型の価値を啓蒙する。
- 参考スコア(独自算出の注目度): 57.206129938611454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, a few self-supervised representation learning (SSL) methods have
outperformed the ImageNet classification pre-training for vision tasks such as
object detection. However, its effects on 3D human body pose and shape
estimation (3DHPSE) are open to question, whose target is fixed to a unique
class, the human, and has an inherent task gap with SSL. We empirically study
and analyze the effects of SSL and further compare it with other pre-training
alternatives for 3DHPSE. The alternatives are 2D annotation-based pre-training
and synthetic data pre-training, which share the motivation of SSL that aims to
reduce the labeling cost. They have been widely utilized as a source of
weak-supervision or fine-tuning, but have not been remarked as a pre-training
source. SSL methods underperform the conventional ImageNet classification
pre-training on multiple 3DHPSE benchmarks by 7.7% on average. In contrast,
despite a much less amount of pre-training data, the 2D annotation-based
pre-training improves accuracy on all benchmarks and shows faster convergence
during fine-tuning. Our observations challenge the naive application of the
current SSL pre-training to 3DHPSE and relight the value of other data types in
the pre-training aspect.
- Abstract(参考訳): 近年,自己教師付き表現学習(SSL)手法は,物体検出などの視覚タスクの事前学習において,ImageNet分類よりも優れている。
しかし、その3次元人体ポーズと形状推定(3DHPSE)に対する影響は疑問視されており、その標的は人間の独特なクラスに固定されており、SSLと固有のタスクギャップがある。
我々はSSLの効果を実証的に研究し分析し、3DHPSEの事前学習方法と比較した。
2Dアノテーションベースの事前トレーニングと合成データ事前トレーニングは、ラベルのコスト削減を目的としたSSLのモチベーションを共有している。
弱いスーパービジョンや微調整の源として広く利用されているが、訓練前の情報源として言及されていない。
SSLメソッドは、複数の3DHPSEベンチマークでトレーニング済みのImageNet分類を平均7.7%下回る。
対照的に、事前トレーニングデータの量がはるかに少ないにもかかわらず、2Dアノテーションベースの事前トレーニングは、すべてのベンチマークの精度を改善し、微調整中により高速な収束を示す。
我々の観察では、現在のSSLの3DHPSEへの初歩的な適用に挑戦し、事前トレーニングの側面における他のデータ型の価値を啓蒙する。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Self-supervised learning for skin cancer diagnosis with limited training data [0.196629787330046]
自己教師付き学習(SSL)は、限られたトレーニングデータを持つシナリオに対するImageNetの標準教師付き事前トレーニングの代替である。
textitfurther SSL をタスク固有のデータセットで事前トレーニングし、その実装は教師あり転送学習によって動機づけられる。
タスク固有のデータに対するより最小限のSSL事前トレーニングは、限られたラベル付きデータによる医療画像分類タスクにおいて、ImageNet上の大規模なSSL事前トレーニングと同じくらい効果的である。
論文 参考訳(メタデータ) (2024-01-01T08:11:38Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Visual Self-supervised Learning Scheme for Dense Prediction Tasks on X-ray Images [3.782392436834913]
自己教師付き学習(SSL)は自然言語処理(NLP)においてかなりの進歩をもたらした
しかし、既存のビジュアルSSLモデルにコントラスト学習を組み込むことは、しばしば監督対象を超越する、かなりの進歩をもたらした。
ここでは、セキュリティ検査X線画像を用いた密集予測タスクに着目し、提案モデルであるセグメントローカライゼーション(SegLoc)を評価する。
インスタンスローカライゼーション(InsLoc)モデルに基づいて、SegLocはコントラスト学習における重要な課題の1つ、すなわち、クエリ埋め込みの偽陰性ペアに対処する。
論文 参考訳(メタデータ) (2023-10-12T15:42:17Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Class-Level Confidence Based 3D Semi-Supervised Learning [18.95161296147023]
ラベル付きデータのクラスレベルの信頼度は,3次元不均衡データセットの学習状況を表すことができることを示す。
本手法は,3次元SSL分類および検出タスクにおいて,最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-10-18T20:13:28Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。