Fugu-MT 論文翻訳(概要): CHOIR: Contact-aware 4D Hand-Object Interaction Reconstruction

論文の概要: CHOIR: Contact-aware 4D Hand-Object Interaction Reconstruction

arxiv url: http://arxiv.org/abs/2605.20992v1
Date: Wed, 20 May 2026 10:31:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.620289
Title: CHOIR: Contact-aware 4D Hand-Object Interaction Reconstruction
Title（参考訳）: CHOIR:コンタクト対応4Dハンドオブジェクトインタラクション再構築
Authors: Hao Xu, Yilin Liu, Yinqiao Wang, Chi-Wing Fu, Niloy J. Mitra,
Abstract要約: 単眼カメラ用コンタクト対応HOI再構成フレームワークであるCHOIRについて述べる。 ChoIRは、まず、オープンワールドの視覚的先行から、粗い接触に依存しない4D HOI配列を初期化する。次に、生成したHOI空間補正モジュールを導入し、光深度補正を予測し、手動相対配置を補正する。最後に、動的に更新された接触制約を伴う接触認識関節最適化は、幾何学的、時間的、接触整合性を強制する。
参考スコア（独自算出の注目度）: 73.97421249653412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We ask whether everyday open-world monocular videos can be turned into reusable 4D interaction primitives: articulated hand motion, object shape with 6D pose over time, and the when/where of contact. Such a capability would enable scalable mining of real interactions and, beyond reconstruction, support scene-aware synthesis and planning. However, reconstructing hand-object interaction (HOI) from challenging monocular videos remains difficult: methods often assume known objects or curated scenes, and separately estimated hands and objects easily become misaligned under clutter, occlusion, and unseen object geometries. Targeting this setting, we present CHOIR, a Contact-aware HOI Reconstruction framework for a monocular camera, using contact as an explicit coupling signal between hands and objects. CHOIR first initializes a coarse, contact-agnostic 4D HOI sequence from open-world visual priors. It then introduces a generative HOI spatial rectification module to predict ray-depth corrections and rectify hand-object relative placement, then derive initial per-frame contact correspondences on the rectified geometry. Last, a contact-aware joint optimization with dynamically updated contact constraints enforces geometric, temporal, and contact consistency. Experiments on controlled and challenging videos show that CHOIR improves object reconstruction, physical plausibility, and temporal consistency over state-of-the-art methods.
Abstract（参考訳）: 日常的なオープンワールドのモノクロビデオが,手の動きや6Dポーズの物体形状,いつどこで接触するかといった,再利用可能な4Dインタラクションプリミティブに変換できるかどうかを問う。このような機能は、実際のインタラクションのスケーラブルなマイニングを可能にし、再構築を超えて、シーン認識の合成と計画をサポートする。しかし、難易度の高いモノクロビデオから手と物体の相互作用(HOI)を再構築することは依然として困難であり、既知の物体やキュレートされたシーンを仮定する手法や、推定された手と物体は、粗い、隠蔽、見えない物体のジオメトリーの下で容易に不一致となる。この設定を目標として,モノクロカメラ用のコンタクト対応HOI再構成フレームワークであるCHOIRを,手と物体間の明示的な結合信号として用いる。 CHOIRは、まず、オープンワールドの視覚的先行から、粗い接触に依存しない4D HOI配列を初期化する。次に、生成したHOI空間補正モジュールを導入し、光深度補正を予測し、手動物体の相対配置を補正し、修正された幾何学上の初期フレーム単位の接触対応を導出する。最後に、動的に更新された接触制約を伴う接触認識関節最適化は、幾何学的、時間的、接触整合性を強制する。制御された、そして挑戦的なビデオの実験では、CHOIRは最先端の手法によるオブジェクト再構成、物理的妥当性、時間的一貫性を改善している。

関連論文リスト

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors [51.06020148149403]
ビデオ先行画像からの4D再構成による人-物間相互作用合成のための最初のゼロショットフレームワークであるArtHOIを紹介する。 ArtHOIは、ビデオベースの生成と幾何学的認識の再構築をブリッジし、セマンティックアライメントと物理的基盤の両方のインタラクションを生成する。
論文参考訳（メタデータ） (2026-03-04T17:58:04Z)
ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos [22.436134664301473]
本稿では,モノクラーハンドオブジェクトインタラクションビデオから直接3次元オブジェクト形状を再構成するフィードフォワードモデルであるForeHOIを紹介する。 ForeHOIは、オブジェクト再構成における最先端のパフォーマンスを実現し、100倍のスピードアップで従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-02-05T22:05:57Z)
Object Reconstruction under Occlusion with Generative Priors and Contact-induced Constraints [20.702086497025494]
本稿では、視覚信号のあいまいさを軽減するために、2つの余分な情報源を利用する。まず、生成モデルは、よく見られる物体の形状の先行を学習し、幾何学の見当たらない部分について合理的な推測をすることができる。第二に、ビデオと物理的相互作用から得られる接触情報は、幾何学の境界にスパース制約を与える。
論文参考訳（メタデータ） (2025-12-04T18:45:14Z)
Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [47.940270914254285]
ViTaM-Dは、動的手・物体の相互作用を分散触覚で再構築するための視覚触覚フレームワークである。 DF-Fieldは手動物体相互作用における運動エネルギーとポテンシャルエネルギーを利用する力覚接触表現である。 ViTaM-Dは、剛性および変形性の両方のオブジェクトの復元精度において、最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-14T16:29:45Z)
HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文参考訳（メタデータ） (2023-11-30T10:50:35Z)
Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-31T17:59:26Z)
HMDO: Markerless Multi-view Hand Manipulation Capture with Deformable Objects [8.711239906965893]
HMDOは、手と変形可能な物体の対話的な動きを記録する最初のマーカーレス変形可能な相互作用データセットである。提案手法は,手と変形可能な物体の対話的動きを高品質に再現することができる。
論文参考訳（メタデータ） (2023-01-18T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。