論文の概要: BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2504.09097v1
- Date: Sat, 12 Apr 2025 06:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:24.535114
- Title: BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting
- Title(参考訳): BIGS:3Dガウススプレイティングによる単眼ビデオからの双方向カテゴリー非依存インタラクション再構築
- Authors: Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang, Junuk Cha, Soohyun Hwang, Hyein Hwang, Seungryul Baek,
- Abstract要約: 本稿では,3次元ガウス的手と未知の物体をモノクロビデオから再構成するBIGS(Bimanual Interaction 3D Gaussian Splatting)を紹介する。
提案手法は,3Dハンドポーズ推定(MPJPE),3Dオブジェクト再構成(CDh,CDo,F10),レンダリング品質(PSNR,SSIM,LPIPS)の2つの課題に対して,最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 3.905416830166856
- License:
- Abstract: Reconstructing 3Ds of hand-object interaction (HOI) is a fundamental problem that can find numerous applications. Despite recent advances, there is no comprehensive pipeline yet for bimanual class-agnostic interaction reconstruction from a monocular RGB video, where two hands and an unknown object are interacting with each other. Previous works tackled the limited hand-object interaction case, where object templates are pre-known or only one hand is involved in the interaction. The bimanual interaction reconstruction exhibits severe occlusions introduced by complex interactions between two hands and an object. To solve this, we first introduce BIGS (Bimanual Interaction 3D Gaussian Splatting), a method that reconstructs 3D Gaussians of hands and an unknown object from a monocular video. To robustly obtain object Gaussians avoiding severe occlusions, we leverage prior knowledge of pre-trained diffusion model with score distillation sampling (SDS) loss, to reconstruct unseen object parts. For hand Gaussians, we exploit the 3D priors of hand model (i.e., MANO) and share a single Gaussian for two hands to effectively accumulate hand 3D information, given limited views. To further consider the 3D alignment between hands and objects, we include the interacting-subjects optimization step during Gaussian optimization. Our method achieves the state-of-the-art accuracy on two challenging datasets, in terms of 3D hand pose estimation (MPJPE), 3D object reconstruction (CDh, CDo, F10), and rendering quality (PSNR, SSIM, LPIPS), respectively.
- Abstract(参考訳): ハンドオブジェクトインタラクション(HOI)の3Dを再構成することは、多数のアプリケーションを見つけるための根本的な問題である。
近年の進歩にもかかわらず、2つの手と未知の物体が相互に相互作用している単眼のRGBビデオから双方向のクラス非依存的相互作用を再構築するための包括的パイプラインはまだ存在しない。
以前の作業では、オブジェクトテンプレートが事前に知られていたり、片手だけがインタラクションに関与する、限定的な手-オブジェクトインタラクションのケースに取り組みました。
双方向の相互作用再構成は、両手と物体の間の複雑な相互作用によって引き起こされる重篤な閉塞を示す。
この問題を解決するために,まずBIGS(Bimanual Interaction 3D Gaussian Splatting)を紹介した。
本研究では, 厳密な閉塞を避けるために, スコア蒸留サンプリング(SDS)損失を伴う事前学習拡散モデルの事前知識を活用し, 未確認対象部分の再構成を行う。
手動ガウスについて、手動モデル(MANO)の3D先行情報を利用して、2つの手で1つのガウス情報を共有し、限られた視点で手動3D情報を効果的に蓄積する。
さらに手と物体の3次元アライメントについて考察するため,ガウス最適化における対話対象最適化のステップを含める。
提案手法は,3Dハンドポーズ推定(MPJPE),3Dオブジェクト再構成(CDh,CDo,F10),レンダリング品質(PSNR,SSIM,LPIPS)の2つの課題に対して,最先端の精度を実現する。
関連論文リスト
- HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。
メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。
両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文 参考訳(メタデータ) (2025-01-06T08:48:17Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。