論文の概要: TouchAnything: Diffusion-Guided 3D Reconstruction from Sparse Robot Touches
- arxiv url: http://arxiv.org/abs/2604.08945v1
- Date: Fri, 10 Apr 2026 04:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.682319
- Title: TouchAnything: Diffusion-Guided 3D Reconstruction from Sparse Robot Touches
- Title(参考訳): TouchAnything: スパースロボットタッチによる拡散誘導型3D再構成
- Authors: Langzhe Gu, Hung-Jui Huang, Mohamad Qadri, Michael Kaess, Wenzhen Yuan,
- Abstract要約: 触覚の疎度測定から3次元再構成を行うための意味的および幾何学的先行モデルとして,事前学習した視覚拡散モデルを利用するフレームワークであるTouchAnythingを提案する。
本手法は,数個の接点から正確なジオメトリを再構成し,既存のベースラインを上回り,未確認のオブジェクトのオープンワールド3D再構成を可能にする。
- 参考スコア(独自算出の注目度): 18.3533066960967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate object geometry estimation is essential for many downstream tasks, including robotic manipulation and physical interaction. Although vision is the dominant modality for shape perception, it becomes unreliable under occlusions or challenging lighting conditions. In such scenarios, tactile sensing provides direct geometric information through physical contact. However, reconstructing global 3D geometry from sparse local touches alone is fundamentally underconstrained. We present TouchAnything, a framework that leverages a pretrained large-scale 2D vision diffusion model as a semantic and geometric prior for 3D reconstruction from sparse tactile measurements. Unlike prior work that trains category-specific reconstruction networks or learns diffusion models directly from tactile data, we transfer the geometric knowledge encoded in pretrained visual diffusion models to the tactile domain. Given sparse contact constraints and a coarse class-level description of the object, we formulate reconstruction as an optimization problem that enforces tactile consistency while guiding solutions toward shapes consistent with the diffusion prior. Our method reconstructs accurate geometries from only a few touches, outperforms existing baselines, and enables open-world 3D reconstruction of previously unseen object instances. Our project page is https://grange007.github.io/touchanything .
- Abstract(参考訳): 正確な物体形状推定は、ロボット操作や物理的相互作用を含む多くの下流タスクに不可欠である。
視覚は形状知覚において支配的なモダリティであるが、閉塞や難解な照明条件下では信頼性が低下する。
このようなシナリオでは、触覚センシングは物理的な接触を通して直接幾何学的情報を提供する。
しかし,局所的な接点のみからグローバルな3次元幾何学を再構築することは,基本的には過小評価されている。
触覚の疎度測定から3次元再構成を行うための意味的および幾何学的先行モデルとして,事前訓練された大規模2次元視覚拡散モデルを活用するフレームワークであるTouchAnythingを提案する。
カテゴリー固有の再構成ネットワークを訓練したり、触覚データから直接拡散モデルを学習する以前の作業とは異なり、事前訓練された視覚拡散モデルに符号化された幾何学的知識を触覚領域に転送する。
物体の粗い接触制約と粗いクラスレベルの記述を考慮し, 従来の拡散と整合した形状への解を導きながら, 触覚の整合性を実現する最適化問題として再構成を定式化する。
本手法は,数個の接点から正確なジオメトリを再構成し,既存のベースラインを上回り,未確認のオブジェクトのオープンワールド3D再構成を可能にする。
私たちのプロジェクトページはhttps://grange007.github.io/touchanythingです。
関連論文リスト
- Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch [3.926587614210279]
そこで本研究では, メカニカル・アモーダル・オブジェクト再構成とポーズ推定のためのマルチモーダル・物理的手法を提案する。
我々は物理的相互作用信号を利用する: プロリオセプションは、ポーズされたハンドジオメトリと、対象表面が横たわらなければならないマルチコンタクトタッチ制約を提供する。
論文 参考訳(メタデータ) (2026-04-10T08:32:51Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Object Reconstruction under Occlusion with Generative Priors and Contact-induced Constraints [20.702086497025494]
本稿では、視覚信号のあいまいさを軽減するために、2つの余分な情報源を利用する。
まず、生成モデルは、よく見られる物体の形状の先行を学習し、幾何学の見当たらない部分について合理的な推測をすることができる。
第二に、ビデオと物理的相互作用から得られる接触情報は、幾何学の境界にスパース制約を与える。
論文 参考訳(メタデータ) (2025-12-04T18:45:14Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Active 3D Shape Reconstruction from Vision and Touch [66.08432412497443]
人間は、視覚と触覚を共同で利用して、活発な物体探索を通じて世界の3D理解を構築する。
3次元形状の再構成では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存している。
1)高空間分解能視覚に基づく触覚センサを応用した3次元物体のアクティブタッチに活用した触覚シミュレータ,2)触覚やビジュオクティビティルを先導するメッシュベースの3次元形状再構成モデル,3)触覚やビジュオのいずれかを用いたデータ駆動型ソリューションのセットからなるシステムを導入する。
論文 参考訳(メタデータ) (2021-07-20T15:56:52Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。