論文の概要: Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions
- arxiv url: http://arxiv.org/abs/2503.15898v1
- Date: Thu, 20 Mar 2025 06:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:03.660740
- Title: Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions
- Title(参考訳): In-the-Wild Open-Vocabulary Human-Object インタラクションの再構築
- Authors: Boran Wen, Dingbang Huang, Zichen Zhang, Jiahong Zhou, Jianbin Deng, Jingyu Gong, Yulong Chen, Lizhuang Ma, Yong-Lu Li,
- Abstract要約: コンピュータビジョンにおいて、単一画像から人間と物体の相互作用(HOI)を再構築することが基本である。
本研究では,微細な3次元人間や物体,それらの相互作用を単一画像からアノテートするためのパイプラインを提案する。
私たちは、将来のテストセットとして機能するために、最初のオープンな3D HOIデータセットOpen3DHOIを構築します。
- 参考スコア(独自算出の注目度): 31.686040408527262
- License:
- Abstract: Reconstructing human-object interactions (HOI) from single images is fundamental in computer vision. Existing methods are primarily trained and tested on indoor scenes due to the lack of 3D data, particularly constrained by the object variety, making it challenging to generalize to real-world scenes with a wide range of objects. The limitations of previous 3D HOI datasets were primarily due to the difficulty in acquiring 3D object assets. However, with the development of 3D reconstruction from single images, recently it has become possible to reconstruct various objects from 2D HOI images. We therefore propose a pipeline for annotating fine-grained 3D humans, objects, and their interactions from single images. We annotated 2.5k+ 3D HOI assets from existing 2D HOI datasets and built the first open-vocabulary in-the-wild 3D HOI dataset Open3DHOI, to serve as a future test set. Moreover, we design a novel Gaussian-HOI optimizer, which efficiently reconstructs the spatial interactions between humans and objects while learning the contact regions. Besides the 3D HOI reconstruction, we also propose several new tasks for 3D HOI understanding to pave the way for future work. Data and code will be publicly available at https://wenboran2002.github.io/3dhoi.
- Abstract(参考訳): コンピュータビジョンにおいて、単一画像から人間と物体の相互作用(HOI)を再構築することが基本である。
既存の方法は、主に3Dデータの欠如、特に物体の多様性に制約されているため、屋内のシーンで訓練され、テストされる。
以前の3D HOIデータセットの制限は、主に3Dオブジェクト資産の取得が困難であったためである。
しかし, 単一画像からの3次元再構成の発展に伴い, 2次元HoI画像から様々な物体を再構成することが可能となった。
そこで我々は, 微粒な3次元人, 物体, その相互作用を単一画像からアノテートするためのパイプラインを提案する。
既存の2D HOIデータセットから2.5k以上の3D HOI資産を注釈付けし、最初のオープン語彙の3D HOIデータセットOpen3DHOIを構築し、将来のテストセットとして機能させた。
さらに,接触領域を学習しながら,人間と物体の空間的相互作用を効率的に再構築する新しいガウス-HOIオプティマイザを設計する。
また, 3D HOI の再構築に加えて, 3D HOI 理解のための新しい課題をいくつか提案する。
データとコードはhttps://wenboran2002.github.io/3dhoi.comで公開される。
関連論文リスト
- InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes [86.26588382747184]
InseRFは3次元シーンのNeRF再構成において生成物挿入のための新しい手法である。
ユーザが提供するテキスト記述と参照視点での2Dバウンディングボックスに基づいて、InseRFは3Dシーンで新しいオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-01-10T18:59:53Z) - Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Perceiving Unseen 3D Objects by Poking the Objects [45.70559270947074]
本稿では,3Dオブジェクトの自動検出と再構成を行うポーキング方式を提案する。
ポーキングプロセスにより、ロボットは見えない3Dオブジェクトを発見できるだけでなく、多視点で観察することもできる。
実世界のデータを用いた実験により,本手法は高品質な未知の3Dオブジェクトを教師なしで発見・再構成できることが判明した。
論文 参考訳(メタデータ) (2023-02-26T18:22:13Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。