Fugu-MT 論文翻訳(概要): Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

論文の概要: Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

arxiv url: http://arxiv.org/abs/2604.09100v1
Date: Fri, 10 Apr 2026 08:32:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.776723
Title: Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch
Title（参考訳）: Proprioception と Multi-Contact Touch を用いた手関節閉塞下3次元生成再建術
Authors: Gabriele Mario Caddeo, Pasquale Marra, Lorenzo Natale,
Abstract要約: そこで本研究では, メカニカル・アモーダル・オブジェクト再構成とポーズ推定のためのマルチモーダル・物理的手法を提案する。我々は物理的相互作用信号を利用する: プロリオセプションは、ポーズされたハンドジオメトリと、対象表面が横たわらなければならないマルチコンタクトタッチ制約を提供する。
参考スコア（独自算出の注目度）: 3.926587614210279
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a multimodal, physically grounded approach for metric-scale amodal object reconstruction and pose estimation under severe hand occlusion. Unlike prior occlusion-aware 3D generation methods that rely only on vision, we leverage physical interaction signals: proprioception provides the posed hand geometry, and multi-contact touch constrains where the object surface must lie, reducing ambiguity in occluded regions. We represent object structure as a pose-aware, camera-aligned signed distance field (SDF) and learn a compact latent space with a Structure-VAE. In this latent space, we train a conditional flow-matching diffusion model, pretraining on vision-only images and finetuning on occluded manipulation scenes while conditioning on visible RGB evidence, occluder/visibility masks, the hand latent representation, and tactile information. Crucially, we incorporate physics-based objectives and differentiable decoder-guidance during finetuning and inference to reduce hand--object interpenetration and to align the reconstructed surface with contact observations. Because our method produces a metric, physically consistent structure estimate, it integrates naturally into existing two-stage reconstruction pipelines, where a downstream module refines geometry and predicts appearance. Experiments in simulation show that adding proprioception and touch substantially improves completion under occlusion and yields physically plausible reconstructions at correct real-world scale compared to vision-only baselines; we further validate transfer by deploying the model on a real humanoid robot with an end-effector different from those used during training.
Abstract（参考訳）: 重度手隠蔽下でのアモーダル物体再構成とポーズ推定のためのマルチモーダル・物理的基礎的手法を提案する。プロプリセプションは, 物体表面が横たわらなければならないような多接触タッチの制約や, 閉塞領域のあいまいさを低減し, 物理的相互作用信号を利用する。我々は、オブジェクト構造をポーズ対応、カメラ対応符号付き距離場(SDF)として表現し、Structure-VAEを用いてコンパクトな潜在空間を学習する。この潜在空間では、視覚のみの画像に基づいて条件付きフローマッチング拡散モデルを訓練し、観察可能なRGBエビデンス、オクルーダー/ビジュアライゼーションマスク、手遅れ表現、触覚情報を条件付き操作シーンで微調整する。重要なことは、微調整および推論中に物理に基づく目的と識別可能なデコーダガイダンスを組み込んで、手動物体の相互侵入を減らし、再構成された表面を接触観察と整合させる。提案手法は, 実測値, 物理的に一貫した構造推定値を生成するため, 下流モジュールが幾何学を洗練し外観を予測するため, 既存の2段階再構築パイプラインと自然に統合する。シミュレーション実験により, 触覚を付加することにより, 閉塞下での完成度が大幅に向上し, 視覚のみのベースラインと比較して, 物理的に妥当な再現性が得られることが示された。

関連論文リスト

TouchAnything: Diffusion-Guided 3D Reconstruction from Sparse Robot Touches [18.3533066960967]
触覚の疎度測定から3次元再構成を行うための意味的および幾何学的先行モデルとして,事前学習した視覚拡散モデルを利用するフレームワークであるTouchAnythingを提案する。本手法は,数個の接点から正確なジオメトリを再構成し,既存のベースラインを上回り,未確認のオブジェクトのオープンワールド3D再構成を可能にする。
論文参考訳（メタデータ） (2026-04-10T04:26:36Z)
URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation [45.4820195450296]
本稿では,視覚的観察から実行可能なオブジェクトモデルを直接生成する,エンドツーエンドの自動回帰フレームワークを提案する。視覚的観察から構築された高忠実度デジタル双生児は、シミュレーションで訓練されたポリシーを、オンライン適応なしで実際のロボットに転送することができる。
論文参考訳（メタデータ） (2026-03-14T16:23:44Z)
MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文参考訳（メタデータ） (2026-02-17T17:09:45Z)
Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning [11.05191602561784]
単一視点からの物理的に有効な3Dシーンの再構築は、視覚知覚とロボット制御のギャップを埋めるための前提条件である。本稿では,物理制約付き実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
論文参考訳（メタデータ） (2026-02-13T05:24:58Z)
Monocular Reconstruction of Neural Tactile Fields [14.002981599280787]
接触時の触覚応答に空間的位置をマッピングする新しい3D表現であるニューラル・触覚場を導入する。我々のモデルは、単一の単分子RGB画像からこれらの神経触覚場を予測する。市販のパスプランナーと統合されると、ニューラルな触覚フィールドは、高抵抗オブジェクトを避けるパスを生成することができる。
論文参考訳（メタデータ） (2026-02-13T01:25:19Z)
ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents [31.495577251319315]
ArtiLatentは、人間の作った3Dオブジェクトを精密な幾何学、正確な調音、リアルな外観で合成する生成フレームワークである。
論文参考訳（メタデータ） (2025-10-24T13:08:15Z)
Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文参考訳（メタデータ） (2025-08-25T17:11:53Z)
Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文参考訳（メタデータ） (2023-09-28T17:59:51Z)
Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文参考訳（メタデータ） (2022-04-04T06:58:15Z)
Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。 rgb-dデータストリームを用いてインタラクティブシーンを再構築する。この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文参考訳（メタデータ） (2021-03-30T05:56:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。