論文の概要: GHOST: Fast Category-agnostic Hand-Object Interaction Reconstruction from RGB Videos using Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2603.18912v1
- Date: Thu, 19 Mar 2026 13:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.178974
- Title: GHOST: Fast Category-agnostic Hand-Object Interaction Reconstruction from RGB Videos using Gaussian Splatting
- Title(参考訳): GHOST:ガウススプラッティングを用いたRGBビデオからの高速カテゴリー非依存手-物体相互作用再構成
- Authors: Ahmed Tawfik Aboukhadra, Marcel Rogge, Nadia Robertini, Abdalla Arafa, Jameel Malik, Ahmed Elhayek, Didier Stricker,
- Abstract要約: GHOST (Gaussian Hand-Object Splatting) は、動的ハンドオブジェクトインタラクションを再構築するための高速でカテゴリに依存しないフレームワークである。
GHOSTは、手とオブジェクトの両方を、密度の高いビュー一貫性を持つガウスディスクとして表現する。
GHOSTは、単一のRGBビデオから完全な、物理的に一貫した、アニマブルな再構成を実現する。
- 参考スコア(独自算出の注目度): 13.725244145380563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding realistic hand-object interactions from monocular RGB videos is essential for AR/VR, robotics, and embodied AI. Existing methods rely on category-specific templates or heavy computation, yet still produce physically inconsistent hand-object alignment in 3D. We introduce GHOST (Gaussian Hand-Object Splatting), a fast, category-agnostic framework for reconstructing dynamic hand-object interactions using 2D Gaussian Splatting. GHOST represents both hands and objects as dense, view-consistent Gaussian discs and introduces three key innovations: (1) a geometric-prior retrieval and consistency loss that completes occluded object regions, (2) a grasp-aware alignment that refines hand translations and object scale to ensure realistic contact, and (3) a hand-aware background loss that prevents penalizing hand-occluded object regions. GHOST achieves complete, physically consistent, and animatable reconstructions from a single RGB video while running an order of magnitude faster than prior category-agnostic methods. Extensive experiments on ARCTIC, HO3D, and in-the-wild datasets demonstrate state-of-the-art accuracy in 3D reconstruction and 2D rendering quality, establishing GHOST as an efficient and robust solution for realistic hand-object interaction modeling. Code is available at https://github.com/ATAboukhadra/GHOST.
- Abstract(参考訳): モノクルなRGBビデオから現実的な手動オブジェクトのインタラクションを理解することは、AR/VR、ロボティクス、そして具体化されたAIにとって不可欠である。
既存の方法はカテゴリ固有のテンプレートや重い計算に依存しているが、3Dで物理的に一貫性のない手オブジェクトアライメントを生成する。
GHOST (Gaussian Hand-Object Splatting) は、2次元ガウスススティングを用いて動的手-物体相互作用を再構築する高速なカテゴリー依存フレームワークである。
GHOSTは手と物体を密集したガウス円盤として表現し,(1)隠蔽対象領域を完結する幾何的優先的検索と整合性損失,(2)手翻訳とオブジェクトスケールを洗練して現実的な接触を確実にする把握的アライメント,(3)手による隠蔽対象領域のペナルライズを防ぐ背景損失の3つの重要なイノベーションを紹介した。
GHOSTは、単一のRGBビデオから完全で、物理的に一貫性があり、アニマタブルな再構成を実現し、従来のカテゴリに依存しない方法よりも桁違いに高速に実行している。
ARCTIC, HO3D, in-the-wildデータセットに関する大規模な実験は、3D再構成における最先端の精度と2Dレンダリング品質を示し、GHOSTを現実的な手動オブジェクトの相互作用モデリングのための効率的で堅牢なソリューションとして確立した。
コードはhttps://github.com/ATAboukhadra/GHOSTで入手できる。
関連論文リスト
- HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images [27.025336665386735]
モノクロモーションビデオ/画像から手動3D変換を推定するための,ロバストでキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
提案手法は,HOSt3Rと命名され,非拘束であり,事前スキャンされたオブジェクトテンプレートやカメラ内在性に依存しず,最先端の性能に達する。
論文 参考訳(メタデータ) (2025-08-22T15:30:40Z) - BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting [3.905416830166856]
本稿では,3次元ガウス的手と未知の物体をモノクロビデオから再構成するBIGS(Bimanual Interaction 3D Gaussian Splatting)を紹介する。
提案手法は,3Dハンドポーズ推定(MPJPE),3Dオブジェクト再構成(CDh,CDo,F10),レンダリング品質(PSNR,SSIM,LPIPS)の2つの課題に対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-04-12T06:30:24Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。