Fugu-MT 論文翻訳(概要): 3D Hand Mesh Recovery from Monocular RGB in Camera Space

論文の概要: 3D Hand Mesh Recovery from Monocular RGB in Camera Space

arxiv url: http://arxiv.org/abs/2405.07167v1
Date: Sun, 12 May 2024 05:36:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 18:08:19.395916
Title: 3D Hand Mesh Recovery from Monocular RGB in Camera Space
Title（参考訳）: カメラ空間における単眼RGBからの3Dハンドメッシュの回収
Authors: Haonan Li, Patrick P. K. Chen, Yitong Zhou,
Abstract要約: 本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。提案モデルは最先端のモデルに匹敵する。
参考スコア（独自算出の注目度）: 3.0453197258042213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of technologies such as virtual reality, augmented reality, and gesture control, users expect interactions with computer interfaces to be more natural and intuitive. Existing visual algorithms often struggle to accomplish advanced human-computer interaction tasks, necessitating accurate and reliable absolute spatial prediction methods. Moreover, dealing with complex scenes and occlusions in monocular images poses entirely new challenges. This study proposes a network model that performs parallel processing of root-relative grids and root recovery tasks. The model enables the recovery of 3D hand meshes in camera space from monocular RGB images. To facilitate end-to-end training, we utilize an implicit learning approach for 2D heatmaps, enhancing the compatibility of 2D cues across different subtasks. Incorporate the Inception concept into spectral graph convolutional network to explore relative mesh of root, and integrate it with the locally detailed and globally attentive method designed for root recovery exploration. This approach improves the model's predictive performance in complex environments and self-occluded scenes. Through evaluation on the large-scale hand dataset FreiHAND, we have demonstrated that our proposed model is comparable with state-of-the-art models. This study contributes to the advancement of techniques for accurate and reliable absolute spatial prediction in various human-computer interaction applications.
Abstract（参考訳）: 仮想現実、拡張現実、ジェスチャーコントロールなどの技術の急速な進歩により、ユーザはコンピュータインターフェースとのインタラクションがより自然で直感的なものになることを期待している。既存のビジュアルアルゴリズムは、高精度で信頼性の高い絶対的な空間予測手法を必要とする、高度な人間とコンピュータのインタラクションタスクを達成するのに苦労することが多い。さらに、単眼画像における複雑なシーンやオクルージョンを扱うことは、全く新しい課題をもたらす。本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。このモデルにより、モノクロRGB画像からカメラ空間における3Dハンドメッシュの復元が可能となる。エンド・ツー・エンドのトレーニングを容易にするために、2Dヒートマップに暗黙的な学習アプローチを用い、異なるサブタスク間の2Dキューの互換性を向上させる。インセプションの概念をスペクトルグラフ畳み込みネットワークに組み込んで、根の相対メッシュを探索し、根の回復探索のために設計された局所的詳細かつ世界的な注意深い手法と統合する。このアプローチは、複雑な環境や自己排除シーンにおけるモデルの予測性能を改善する。大規模ハンドデータセットFreiHANDの評価を通じて,提案モデルが最先端モデルに匹敵することを示した。本研究は,様々な人-コンピュータインタラクションアプリケーションにおいて,高精度かつ信頼性の高い絶対空間予測技術の発展に寄与する。

関連論文リスト

SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文参考訳（メタデータ） (2024-11-26T14:23:42Z)
Kinematics-based 3D Human-Object Interaction Reconstruction from Single View [10.684643503514849]
既存の方法は、単に身体のポーズを単に屋内データセットのネットワークトレーニングに依存するだけである。本研究では,人体の関節を人体接触領域へ正確に駆動するキネマティクスに基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-19T05:44:35Z)
DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-26T00:08:29Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文参考訳（メタデータ） (2023-07-11T03:40:10Z)
Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文参考訳（メタデータ） (2022-07-06T08:52:12Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。 RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。 RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文参考訳（メタデータ） (2021-06-22T12:53:56Z)
A Markerless Deep Learning-based 6 Degrees of Freedom PoseEstimation for with Mobile Robots using RGB Data [3.4806267677524896]
本稿では,拡張現実デバイス上でリアルタイムな3Dオブジェクトローカライゼーションを実現するために,アートニューラルネットワークの状態をデプロイする手法を提案する。本研究では,2次元入力のみを用いて物体の3次元ポーズを高速かつ正確に抽出する高速な2次元検出手法に着目する。 2D画像の6Dアノテーションとして,私たちの知る限り,最初のオープンソースツールであるアノテーションツールを開発した。
論文参考訳（メタデータ） (2020-01-16T09:13:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。