論文の概要: Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction
- arxiv url: http://arxiv.org/abs/2004.13449v1
- Date: Tue, 28 Apr 2020 12:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:28:35.046850
- Title: Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction
- Title(参考訳): 軽快な手指再建のための時間的光度一貫性の活用
- Authors: Yana Hasson, Bugra Tekin, Federica Bogo, Ivan Laptev, Marc Pollefeys,
Cordelia Schmid
- Abstract要約: 本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 118.21363599332493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling hand-object manipulations is essential for understanding how humans
interact with their environment. While of practical importance, estimating the
pose of hands and objects during interactions is challenging due to the large
mutual occlusions that occur during manipulation. Recent efforts have been
directed towards fully-supervised methods that require large amounts of labeled
training samples. Collecting 3D ground-truth data for hand-object interactions,
however, is costly, tedious, and error-prone. To overcome this challenge we
present a method to leverage photometric consistency across time when
annotations are only available for a sparse subset of frames in a video. Our
model is trained end-to-end on color images to jointly reconstruct hands and
objects in 3D by inferring their poses. Given our estimated reconstructions, we
differentiably render the optical flow between pairs of adjacent images and use
it within the network to warp one frame to another. We then apply a
self-supervised photometric loss that relies on the visual consistency between
nearby images. We achieve state-of-the-art results on 3D hand-object
reconstruction benchmarks and demonstrate that our approach allows us to
improve the pose estimation accuracy by leveraging information from neighboring
frames in low-data regimes.
- Abstract(参考訳): ハンドオブジェクト操作のモデリングは、人間が環境とどのように相互作用するかを理解するのに不可欠である。
実用上重要であるが、操作中に生じる大きな相互閉塞のため、相互作用中の手や物体の姿勢の推定は困難である。
近年,大量のラベル付きトレーニングサンプルを必要とする完全教師あり手法への取り組みが進められている。
しかし、ハンドオブジェクトインタラクションのための3d地上データ収集は、コストがかかり、退屈で、エラーが発生しやすい。
この課題を克服するために,ビデオ中のフレームのばらばらなサブセットに対してのみアノテーションを利用できる場合に,時間にわたって測光一貫性を活用する手法を提案する。
私たちのモデルは、カラーイメージをエンドツーエンドで訓練し、ポーズを推測して手と物体を3dで共同的に再構築する。
推定した再構成から、隣接する画像のペア間の光の流れを別々に描画し、ネットワーク内で別のフレームにワープする。
次に、近接画像間の視覚的一貫性に依存する自己教師付き測光損失を適用する。
提案手法は, 3次元手オブジェクト再構成ベンチマークの最先端結果を実現し, 低データ環境における近隣フレームの情報を活用することで, ポーズ推定精度を向上させることができることを示した。
関連論文リスト
- EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - TOCH: Spatio-Temporal Object-to-Hand Correspondence for Motion
Refinement [42.3418874174372]
そこで本研究では,データを用いた不正確な3次元手オブジェクトインタラクションシーケンスの精細化手法TOCHを提案する。
時間分解オートエンコーダを用いた可塑性TOCH場の潜在多様体を学習する。
実験により、TOCHは最先端の3Dハンドオブジェクトインタラクションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-16T20:41:45Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time [22.574069344246052]
本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。
提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
論文 参考訳(メタデータ) (2021-06-09T17:59:34Z) - SeqHAND:RGB-Sequence-Based 3D Hand Pose and Shape Estimation [48.456638103309544]
RGB画像に基づく3次元手ポーズ推定は長い間研究されてきた。
本研究では,人間の手の動きを模倣する合成データセットを生成する手法を提案する。
本研究では,3次元ポーズ推定における時間情報の利用により,一般的なポーズ推定が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-07-10T05:11:14Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。