論文の概要: Understanding 3D Object Interaction from a Single Image
- arxiv url: http://arxiv.org/abs/2305.09664v2
- Date: Fri, 4 Aug 2023 20:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:53:45.908890
- Title: Understanding 3D Object Interaction from a Single Image
- Title(参考訳): 単一画像からの3次元物体の相互作用の理解
- Authors: Shengyi Qian, David F. Fouhey
- Abstract要約: 人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。
私たちは、知的エージェントが3Dシーンをよりよく探索したり、オブジェクトを操作できるように、同様の能力をマシンに提供したいと考えています。
- 参考スコア(独自算出の注目度): 18.681222155879656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily understand a single image as depicting multiple potential
objects permitting interaction. We use this skill to plan our interactions with
the world and accelerate understanding new objects without engaging in
interaction. In this paper, we would like to endow machines with the similar
ability, so that intelligent agents can better explore the 3D scene or
manipulate objects. Our approach is a transformer-based model that predicts the
3D location, physical properties and affordance of objects. To power this
model, we collect a dataset with Internet videos, egocentric videos and indoor
images to train and validate our approach. Our model yields strong performance
on our data, and generalizes well to robotics data. Project site:
https://jasonqsy.github.io/3DOI/
- Abstract(参考訳): 人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。
私たちはこのスキルを使って世界との対話を計画し、対話に携わることなく新しいオブジェクトを理解することを加速します。
本稿では,知的エージェントが3Dシーンをよりよく探索したり,物体を操作したりできるように,同様の能力で機械を支援したい。
提案手法は3次元位置, 物理的特性, 物価を予測するトランスフォーマーモデルである。
このモデルを活用するために、インターネットビデオ、エゴセントリックビデオ、屋内画像などのデータセットを収集し、アプローチをトレーニングし、検証する。
我々のモデルは、我々のデータに強い性能をもたらし、ロボットデータによく当てはまる。
プロジェクトサイト: https://jasonqsy.github.io/3doi/
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Perceiving Unseen 3D Objects by Poking the Objects [45.70559270947074]
本稿では,3Dオブジェクトの自動検出と再構成を行うポーキング方式を提案する。
ポーキングプロセスにより、ロボットは見えない3Dオブジェクトを発見できるだけでなく、多視点で観察することもできる。
実世界のデータを用いた実験により,本手法は高品質な未知の3Dオブジェクトを教師なしで発見・再構成できることが判明した。
論文 参考訳(メタデータ) (2023-02-26T18:22:13Z) - PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF
Tracking [27.283648727847268]
トレーニング画像も3次元形状も利用できない場合,RGBビデオシーケンス中の物体の6次元動きを追跡する手法を提案する。
従来の研究とは対照的に,本手法はオープンワールドにおける未知の物体を瞬時に考慮することができる。
挑戦的なデータセットに関する私たちの結果は、もっと多くの情報を必要とする以前の作業と同等です。
論文 参考訳(メタデータ) (2022-09-15T19:55:13Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。