論文の概要: How Self-Supervised Learning Can be Used for Fine-Grained Head Pose
Estimation?
- arxiv url: http://arxiv.org/abs/2108.04893v2
- Date: Thu, 12 Aug 2021 17:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 11:27:56.984735
- Title: How Self-Supervised Learning Can be Used for Fine-Grained Head Pose
Estimation?
- Title(参考訳): 自己教師付き学習は, きめ細かい頭部ポーズ推定にどのように役立つか?
- Authors: Mahdi Pourmirzaei and Gholam Ali Montazer and Farzaneh Esmaili
- Abstract要約: SSLはどのようにしてヘッドポーズ推定に使えるのか?
SSLプリテキストタスクとしてジグソーパズリングとローテーションの修正版が使用されている。
HTML メソッドによる誤り率の 11% を SL と比較した。
- 参考スコア(独自算出の注目度): 2.0625936401496237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress of Self-Supervised Learning (SSL) demonstrates the capability
of these methods in computer vision field. However, this progress could not
show any promises for fine-grained tasks such as Head Pose estimation. In this
article, we have tried to answer a question: How SSL can be used for Head Pose
estimation? In general, there are two main approaches to use SSL: 1. Using
pre-trained weights which can be done via weights pre-training on ImageNet or
via SSL tasks. 2. Leveraging SSL as an auxiliary co-training task besides of
Supervised Learning (SL) tasks at the same time. In this study, modified
versions of jigsaw puzzling and rotation as SSL pre-text tasks are used and the
best architecture for our proposed Hybrid Multi-Task Learning (HMTL) is found.
Finally, the HopeNet method as a baseline is selected and the impact of SSL
pre-training and ImageNet pre-training on both HMTL and SL are compared. The
error rate reduced by the HTML method up to 11% compare to the SL. Moreover,
HMTL method showed that it was good with all kinds of initial weights: random,
ImageNet and SSL pre-training weights. Also, it was observed, when puzzled
images are used for SL alone, the average error rate placed between SL and HMTL
which showed the importance of local spatial features compare to global spatial
features.
- Abstract(参考訳): 自己監視学習(SSL)の最近の進歩は、コンピュータビジョン分野におけるこれらの手法の能力を示している。
しかし、この進歩は、ヘッドポーズ推定のようなきめ細かいタスクの約束を示さなかった。
SSLはどのようにしてヘッドポーズ推定に使えるのか?
一般的にsslを使うための主なアプローチは2つある。
トレーニング済みのウェイトを使用することで、ImageNetでの事前トレーニングやSSLタスクで実行できる。
2.
SSLをスーパーバイザードラーニング(SL)タスクに加えて、補助的なコトレーニングタスクとして活用する。
本研究では,sslプリテキストタスクとしてjigsaw puzzlingとローテーションの修正版を使用し,提案するハイブリッドマルチタスク学習 (hmtl) のための最善のアーキテクチャを見いだした。
最後に、ベースラインとしてHopeNet法を選択し、HMTLとSLの両方でSSL事前トレーニングとImageNet事前トレーニングの影響を比較した。
htmlメソッドによるエラー率は11%まで減少し、slと比較した。
さらにhmtl法では,ランダム,イメージネット,sslプリトレーニングウェイトなど,すべての初期重み付けが良好であった。
また,パズル画像を用いた場合,局所的な空間的特徴の重要性を示すSLとHMTLの平均誤差率をグローバルな空間的特徴と比較した。
関連論文リスト
- Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning [4.137391543972184]
半教師付き学習(SSL)は目覚ましい進歩をみせており、多くの方法のバリエーションをもたらしている。
本稿では,FinSSLという新しいSSLアプローチを提案する。
我々は、FineSSLが複数のベンチマークデータセットにSSLの新たな状態を設定し、トレーニングコストを6倍以上削減し、さまざまな微調整と現代的なSSLアルゴリズムをシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-05-20T03:33:12Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [40.27083924454058]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための堅牢なトレーニング手法である
この研究は、現代のビジュアルSSLメソッドの分類を導入し、アプローチの主要なカテゴリに関する詳細な説明と洞察を添えた。
ドメイン固有のダウンストリームタスクでは、ドメイン内のローデータSSLプリトレーニングが大規模な事前トレーニングの一般的なアプローチより優れています。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - DailyMAE: Towards Pretraining Masked Autoencoders in One Day [37.206816999538496]
マスク付き画像モデリング(MIM)は、ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
本研究では,データロードボトルネックの軽減を目的としたMIMベースのSSLの効率的なトレーニングレシピを提案する。
このライブラリは,ImageNet 1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
論文 参考訳(メタデータ) (2024-03-31T00:59:10Z) - Rethinking Self-Supervised Visual Representation Learning in
Pre-training for 3D Human Pose and Shape Estimation [57.206129938611454]
自己教師付き表現学習(SSL)法は、オブジェクト検出などの視覚タスクのためのImageNet分類前トレーニングよりも優れている。
我々は、SSLの効果を実証的に研究し分析し、3DHPSEの事前学習方法と比較した。
我々の観察では、現在のSSLの3DHPSEへの初歩的な適用に挑戦し、事前トレーニングの側面において、他のデータ型の価値を啓蒙する。
論文 参考訳(メタデータ) (2023-03-09T16:17:52Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Interventional Few-Shot Learning [88.31112565383457]
本稿では,新しいFew-Shot Learningパラダイム,Interventional Few-Shot Learningを提案する。
コードはhttps://github.com/yue-zhongqi/ifsl.comで公開されている。
論文 参考訳(メタデータ) (2020-09-28T01:16:54Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。