論文の概要: Domain Adaptive Hand Keypoint and Pixel Localization in the Wild
- arxiv url: http://arxiv.org/abs/2203.08344v2
- Date: Fri, 18 Mar 2022 13:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 11:28:33.369839
- Title: Domain Adaptive Hand Keypoint and Pixel Localization in the Wild
- Title(参考訳): 野生動物におけるドメイン適応ハンドキーポイントとピクセル局在
- Authors: Takehiko Ohkawa, Yu-Jhe Li, Qichen Fu, Ryosuke Furuta, Kris M. Kitani
and Yoichi Sato
- Abstract要約: 我々は,新しい撮像条件下でのキーポイントの後退とピクセルレベルのハンドマスクのセグメンテーションの性能向上を目指す。
本手法は,最新の逆適応法と比較して,HO3Dのマルチタスクスコアを4%改善する。
- 参考スコア(独自算出の注目度): 40.71379707068579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to improve the performance of regressing hand keypoints and segmenting
pixel-level hand masks under new imaging conditions (e.g., outdoors) when we
only have labeled images taken under very different conditions (e.g., indoors).
In the real world, it is important that the model trained for both tasks works
under various imaging conditions. However, their variation covered by existing
labeled hand datasets is limited. Thus, it is necessary to adapt the model
trained on the labeled images (source) to unlabeled images (target) with unseen
imaging conditions. While self-training domain adaptation methods (i.e.,
learning from the unlabeled target images in a self-supervised manner) have
been developed for both tasks, their training may degrade performance when the
predictions on the target images are noisy. To avoid this, it is crucial to
assign a low importance (confidence) weight to the noisy predictions during
self-training. In this paper, we propose to utilize the divergence of two
predictions to estimate the confidence of the target image for both tasks.
These predictions are given from two separate networks, and their divergence
helps identify the noisy predictions. To integrate our proposed confidence
estimation into self-training, we propose a teacher-student framework where the
two networks (teachers) provide supervision to a network (student) for
self-training, and the teachers are learned from the student by knowledge
distillation. Our experiments show its superiority over state-of-the-art
methods in adaptation settings with different lighting, grasping objects,
backgrounds, and camera viewpoints. Our method improves by 4% the multi-task
score on HO3D compared to the latest adversarial adaptation method. We also
validate our method on Ego4D, egocentric videos with rapid changes in imaging
conditions outdoors.
- Abstract(参考訳): 異なる条件(例えば屋内)で撮影されるラベル付き画像しか持たない場合、新しい撮像条件(例えば屋外)下で手指のキーポイントの後退や画素レベルのハンドマスクのセグメンテーションの性能を向上させることを目的としている。
実世界では,両タスクを訓練したモデルが様々な撮像条件下で動作することが重要である。
しかし、既存のラベル付きハンドデータセットでカバーされているバリエーションは限られている。
したがって、ラベル付き画像(ソース)で訓練されたモデルを、未表示の画像(ターゲット)に未表示の撮像条件で適応させる必要がある。
どちらの課題も自己学習型ドメイン適応法(すなわちラベルなしの目標画像からの学習)が開発されているが、対象画像の予測が騒がしい場合、その訓練は性能を低下させる可能性がある。
これを避けるために、自己学習中のノイズ予測に低重要性(自信)重みを割り当てることが重要である。
本稿では,2つの予測の発散を利用して,両タスクの目標画像の信頼度を推定する。
これらの予測は2つの別々のネットワークから与えられ、その分岐はノイズの予測を特定するのに役立つ。
提案する信頼度推定を自己学習に組み込むために,2つのネットワーク(教師)が自己学習のためのネットワーク(学生)に監督を提供し,教師が知識蒸留によって生徒から学習する教師教育枠組みを提案する。
本実験は,照明,物体の把握,背景,カメラ視点の調整において,最先端の手法よりも優れていることを示す。
本手法は,最新の逆適応法と比較して,HO3Dのマルチタスクスコアを4%改善する。
また, ego4d, egocentric videoにおいて, 屋外の撮像条件の急激な変化を検証した。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Continual Active Learning for Efficient Adaptation of Machine Learning
Models to Changing Image Acquisition [3.205205037629335]
医用画像のデータストリームを用いた連続的能動学習手法を提案する。
新たな画像ソース(ドメイン)のシフトや追加を認識し、トレーニングを順応する。
提案手法は,手動ラベリングを少なくしながら,能動的学習に優れることを示した。
論文 参考訳(メタデータ) (2021-06-07T05:39:06Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。