論文の概要: Hand Image Understanding via Deep Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2107.11646v1
- Date: Sat, 24 Jul 2021 16:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:08:08.366648
- Title: Hand Image Understanding via Deep Multi-Task Learning
- Title(参考訳): 深部マルチタスク学習による手画像理解
- Authors: Zhang Xiong, Huang Hongsheng, Tan Jianchao, Xu Hongmin, Yang Cheng,
Peng Guozhu, Wang Lei, Liu Ji
- Abstract要約: 単一のRGB画像から手動物体の包括的情報を抽出する新しい手動画像理解(HIU)フレームワークを提案する。
提案手法は, 様々な広く使用されているデータセットに対する最先端のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 13.170573272565383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing and understanding hand information from multimedia materials like
images or videos is important for many real world applications and remains
active in research community. There are various works focusing on recovering
hand information from single image, however, they usually solve a single task,
for example, hand mask segmentation, 2D/3D hand pose estimation, or hand mesh
reconstruction and perform not well in challenging scenarios. To further
improve the performance of these tasks, we propose a novel Hand Image
Understanding (HIU) framework to extract comprehensive information of the hand
object from a single RGB image, by jointly considering the relationships
between these tasks. To achieve this goal, a cascaded multi-task learning (MTL)
backbone is designed to estimate the 2D heat maps, to learn the segmentation
mask, and to generate the intermediate 3D information encoding, followed by a
coarse-to-fine learning paradigm and a self-supervised learning strategy.
Qualitative experiments demonstrate that our approach is capable of recovering
reasonable mesh representations even in challenging situations. Quantitatively,
our method significantly outperforms the state-of-the-art approaches on various
widely-used datasets, in terms of diverse evaluation metrics.
- Abstract(参考訳): 画像やビデオなどのマルチメディア資料から手元の情報を分析・理解することは、多くの現実世界のアプリケーションにとって重要であり、研究コミュニティで活発に活動している。
単一の画像から手情報を復元することに焦点を当てた様々な研究があるが、通常、手動マスクのセグメンテーション、2D/3D手動ポーズ推定、手動メッシュ再構成など、単一のタスクを解決し、困難なシナリオではうまく機能しない。
これらのタスクの性能をさらに高めるため,本論文では,ハンドオブジェクトの包括的情報を単一のrgb画像から抽出する新しいハンドイメージ理解(hiu)フレームワークを提案する。
この目的を達成するために、カスケードマルチタスク学習(mtl)バックボーンは、2次元ヒートマップを推定し、セグメンテーションマスクを学習し、中間の3次元情報エンコーディングを生成し、粗視学習パラダイムと自己教師付き学習戦略を実行する。
定性的な実験により,我々のアプローチは,困難な状況でも合理的なメッシュ表現を回収できることを示した。
本手法は,多種多様な評価指標を用いて,多種多様な用途のデータセットに対する最先端のアプローチを著しく上回っている。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation [5.888156950854715]
本稿では,3次元ハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法はHandMIMと呼ばれ,様々なハンドメッシュ推定タスクにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2023-07-29T19:46:06Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Multi-Task Self-Supervised Learning for Image Segmentation Task [0.0]
本稿では,深度予測と表面正規化を用いたマルチタスク学習によるセマンティックセグメンテーション性能向上のための自己指導手法を提案する。
2. マルチタスク学習に用いる異なる種類の重み付け技術(UW, Nash-MTL)の性能評価
論文 参考訳(メタデータ) (2023-02-05T21:25:59Z) - Multi-task learning from fixed-wing UAV images for 2D/3D city modeling [0.0]
マルチタスク学習(Multi-task learning)は、トレーニングデータに制限のある複数のタスクを含むシーン理解のアプローチである。
インフラ開発、交通監視、スマート3D都市、変更検出などの都市管理アプリケーションでは、自動マルチタスクデータ分析が必要である。
本研究では,2D/3D都市モデリングのための固定翼UAV画像を用いたマルチタスク学習手法の性能評価のための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:45:42Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。