論文の概要: OPD: Single-view 3D Openable Part Detection
- arxiv url: http://arxiv.org/abs/2203.16421v1
- Date: Wed, 30 Mar 2022 16:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:45:08.997956
- Title: OPD: Single-view 3D Openable Part Detection
- Title(参考訳): OPD:Single-view 3D Openable Part Detection
- Authors: Hanxiao Jiang, Yongsen Mao, Manolis Savva, Angel X. Chang
- Abstract要約: オブジェクトのどの部分が開くのか、どのように動くのかを予測するタスクに対処する。
入力はオブジェクトの1つのイメージであり、出力として、オブジェクトのどの部分が開き得るか、そして各開き可能な部分の関節を記述する運動パラメータを検出する。
次に、オープンな部分を検出し、その動作パラメータを予測するニューラルネットワークであるPDRCNNを設計する。
- 参考スコア(独自算出の注目度): 20.17537159013785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of predicting what parts of an object can open and how
they move when they do so. The input is a single image of an object, and as
output we detect what parts of the object can open, and the motion parameters
describing the articulation of each openable part. To tackle this task, we
create two datasets of 3D objects: OPDSynth based on existing synthetic
objects, and OPDReal based on RGBD reconstructions of real objects. We then
design OPDRCNN, a neural architecture that detects openable parts and predicts
their motion parameters. Our experiments show that this is a challenging task
especially when considering generalization across object categories, and the
limited amount of information in a single image. Our architecture outperforms
baselines and prior work especially for RGB image inputs. Short video summary
at https://www.youtube.com/watch?v=P85iCaD0rfc
- Abstract(参考訳): オブジェクトのどの部分が開くのか、どのように動くのかを予測するタスクに対処する。
入力はオブジェクトの1つのイメージであり、出力として、オブジェクトのどの部分が開き得るか、そして各開き可能な部分の関節を記述する運動パラメータを検出する。
この課題に取り組むために,既存の合成オブジェクトに基づくOPDSynthと,実オブジェクトのRGBD再構成に基づくOPDRealという,2つの3Dオブジェクトのデータセットを作成する。
次に、オープンな部分を検出し、その動作パラメータを予測するニューラルネットワークであるPDRCNNを設計する。
実験の結果,特に対象カテゴリ間の一般化や,単一画像における限られた情報量を考慮した場合,これは難しい課題であることがわかった。
我々のアーキテクチャは、特にRGB画像入力において、ベースラインと先行作業より優れています。
https://www.youtube.com/watch?
v=P85iCaD0rfc
関連論文リスト
- Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - OPDMulti: Openable Part Detection for Multiple Objects [9.738426336815113]
開部検出は、単一ビュー画像中のオブジェクトの開部を検出するタスクである。
我々は,このタスクを複数のオブジェクトを持つシーンに一般化し,実世界のシーンに基づいて対応するデータセットを作成する。
実験の結果,OPDFormerアーキテクチャは従来よりも大幅に優れていたことがわかった。
論文 参考訳(メタデータ) (2023-03-24T15:52:20Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF
Tracking [27.283648727847268]
トレーニング画像も3次元形状も利用できない場合,RGBビデオシーケンス中の物体の6次元動きを追跡する手法を提案する。
従来の研究とは対照的に,本手法はオープンワールドにおける未知の物体を瞬時に考慮することができる。
挑戦的なデータセットに関する私たちの結果は、もっと多くの情報を必要とする以前の作業と同等です。
論文 参考訳(メタデータ) (2022-09-15T19:55:13Z) - Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2022-09-12T21:03:25Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Towards Part-Based Understanding of RGB-D Scans [43.4094489272776]
本研究では,実世界の3D環境をパートベースで理解する作業を提案する。
シーンのRGB-Dスキャンからオブジェクトを検出し,各オブジェクトに対して幾何学的な部分マスクへの分解を予測する。
中間部分グラフ表現を利用して、ロバストな補完と部分の事前構築を可能にします。
論文 参考訳(メタデータ) (2020-12-03T17:30:02Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。