論文の概要: CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
- arxiv url: http://arxiv.org/abs/2512.11988v1
- Date: Fri, 12 Dec 2025 19:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.061138
- Title: CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
- Title(参考訳): CARI4D:カテゴリー非依存的4D再構成による人間と物体の相互作用
- Authors: Xianghui Xie, Bowen Wen, Yan Chang, Hesam Rabeti, Jiefeng Li, Ye Yuan, Gerard Pons-Moll, Stan Birchfield,
- Abstract要約: 本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。
我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
- 参考スコア(独自算出の注目度): 40.557276644446475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate capture of human-object interaction from ubiquitous sensors like RGB cameras is important for applications in human understanding, gaming, and robot learning. However, inferring 4D interactions from a single RGB view is highly challenging due to the unknown object and human information, depth ambiguity, occlusion, and complex motion, which hinder consistent 3D and temporal reconstruction. Previous methods simplify the setup by assuming ground truth object template or constraining to a limited set of object categories. We present CARI4D, the first category-agnostic method that reconstructs spatially and temporarily consistent 4D human-object interaction at metric scale from monocular RGB videos. To this end, we propose a pose hypothesis selection algorithm that robustly integrates the individual predictions from foundation models, jointly refine them through a learned render-and-compare paradigm to ensure spatial, temporal and pixel alignment, and finally reasoning about intricate contacts for further refinement satisfying physical constraints. Experiments show that our method outperforms prior art by 38% on in-distribution dataset and 36% on unseen dataset in terms of reconstruction error. Our model generalizes beyond the training categories and thus can be applied zero-shot to in-the-wild internet videos. Our code and pretrained models will be publicly released.
- Abstract(参考訳): RGBカメラのようなユビキタスセンサーからの人間と物体の正確な相互作用のキャプチャは、人間の理解、ゲーム、ロボット学習の応用において重要である。
しかし、単一のRGBビューから4Dインタラクションを推測することは、未知の物体と人間の情報、深さのあいまいさ、閉塞性、複雑な動きのために非常に困難であり、一貫した3Dと時間的再構成を妨げている。
以前の方法では、基底真理オブジェクトテンプレートを仮定したり、オブジェクトカテゴリの限定セットに制約を課すことで、セットアップを単純化していた。
本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。
そこで本研究では,基礎モデルから個々の予測を頑健に統合し,学習されたレンダリング・アンド・コンパレント・パラダイムを併用して,空間的・時間的・ピクセル的アライメントを保証し,さらに物理的な制約を満たすための複雑な接触を推論するポーズ仮説選択アルゴリズムを提案する。
実験により,本手法の先行技術は分布内データセットで38%,未確認データセットで36%,復元誤差で36%向上した。
我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
私たちのコードと事前訓練されたモデルは公開されます。
関連論文リスト
- Efficient and Scalable Monocular Human-Object Interaction Motion Reconstruction [19.16200327159635]
汎用ロボットは、多種多様な大規模人間オブジェクト相互作用(HOI)から学習し、現実世界でしっかりと操作する必要がある。
4DHOISOLverは、4DHOI復元問題に対処する新しい,効率的な最適化フレームワークである。
Open4DHOIは、144のオブジェクトタイプと103のアクションの多様なカタログを備えた、新しい大規模4D HOIデータセットである。
論文 参考訳(メタデータ) (2025-11-30T16:21:47Z) - TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement [24.287902864042792]
我々は,新しい大規模4次元人間オブジェクト協調データセットであるCORE4Dを提案する。
現実世界で捉えた1K個の人-物-人間の動作シーケンスにより、我々は様々な新しい物体に動きを増強するための反復的な協調戦略を寄与することにより、CORE4Dを豊かにする。
CORE4Dが提供する広範囲な動きパターンから、人間と物体の相互作用を生成するための2つのタスク、すなわち人-物体の動き予測と相互作用合成をベンチマークする。
論文 参考訳(メタデータ) (2024-06-27T17:32:18Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - CHORE: Contact, Human and Object REconstruction from a single RGB image [40.817960406002506]
CHOREは、1枚のRGB画像から人間と物体を共同で再構築する方法である。
2つの符号のない距離場で暗黙的に表現された人間と物体の神経再構成を計算する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
論文 参考訳(メタデータ) (2022-04-05T18:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。