論文の概要: Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges
- arxiv url: http://arxiv.org/abs/2209.05612v1
- Date: Mon, 12 Sep 2022 21:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:53:55.956456
- Title: Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges
- Title(参考訳): RGBビデオからの人工的な3次元オブジェクトインタラクション:アプローチと課題の実証分析
- Authors: Sanjay Haresh, Xiaohao Sun, Hanxiao Jiang, Angel X. Chang, Manolis
Savva
- Abstract要約: RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 19.21834600205309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object interactions with articulated objects are common in everyday
life. Despite much progress in single-view 3D reconstruction, it is still
challenging to infer an articulated 3D object model from an RGB video showing a
person manipulating the object. We canonicalize the task of articulated 3D
human-object interaction reconstruction from RGB video, and carry out a
systematic benchmark of five families of methods for this task: 3D plane
estimation, 3D cuboid estimation, CAD model fitting, implicit field fitting,
and free-form mesh fitting. Our experiments show that all methods struggle to
obtain high accuracy results even when provided ground truth information about
the observed objects. We identify key factors which make the task challenging
and suggest directions for future work on this challenging 3D computer vision
task. Short video summary at https://www.youtube.com/watch?v=5tAlKBojZwc
- Abstract(参考訳): 人間と物体の相互作用は日常的に一般的である。
シングルビュー3D再構成の進歩にもかかわらず、オブジェクトを操作する人を示すRGBビデオから、明瞭な3Dオブジェクトモデルを推測することは依然として困難である。
本研究では,rgbビデオによる3次元物体間相互作用の再構築の課題を標準化し,3次元平面推定,3次元立方体推定,cadモデルフィッティング,暗黙的フィールドフィッティング,フリーフォームメッシュフィッティングの5種類の手法の体系的ベンチマークを行った。
実験の結果,観測対象に関する真理情報を提供しても,全ての手法が精度の高い結果を得るのに苦慮していることがわかった。
我々は,課題を困難なものにする重要な要因を特定し,この課題である3Dコンピュータビジョンタスクの今後の課題を提案する。
https://www.youtube.com/watch?
v=5tAlKBojZwc
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Monocular 3D Object Detection using Multi-Stage Approaches with
Attention and Slicing aided hyper inference [0.0]
3Dオブジェクト検出は、世界のオブジェクトのサイズ、向き、位置をキャプチャできるため、不可欠です。
拡張現実(Augmented Reality, AR)や自動運転車、ロボットなど、現実世界のアプリケーションでは、この3D検出が利用できるようになるでしょう。
論文 参考訳(メタデータ) (2022-12-22T15:36:07Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。