論文の概要: Zero-Shot Learning for the Primitives of 3D Affordance in General
Objects
- arxiv url: http://arxiv.org/abs/2401.12978v2
- Date: Wed, 24 Jan 2024 11:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 11:41:07.535973
- Title: Zero-Shot Learning for the Primitives of 3D Affordance in General
Objects
- Title(参考訳): 汎用オブジェクトにおける3次元アフォーアンスプリミティブのためのゼロショット学習
- Authors: Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo
- Abstract要約: 本稿では,3次元オブジェクトのみを対象とする3次元割当例を生成するための,新しい自己監督手法を提案する。
本稿では,適応マスクアルゴリズムを用いて,オブジェクトの本来の詳細を変更することなく,人間の挿入を可能にする。
また、相対的な配向と、密接な人間と物体の近さで定義される新しい余剰表現も提供する。
- 参考スコア(独自算出の注目度): 9.759272826505821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major challenges in AI is teaching machines to precisely respond
and utilize environmental functionalities, thereby achieving the affordance
awareness that humans possess. Despite its importance, the field has been
lagging in terms of learning, especially in 3D, as annotating affordance
accompanies a laborious process due to the numerous variations of human-object
interaction. The low availability of affordance data limits the learning in
terms of generalization for object categories, and also simplifies the
representation of affordance, capturing only a fraction of the affordance. To
overcome these challenges, we propose a novel, self-supervised method to
generate the 3D affordance examples given only a 3D object, without any manual
annotations. The method starts by capturing the 3D object into images and
creating 2D affordance images by inserting humans into the image via inpainting
diffusion models, where we present the Adaptive Mask algorithm to enable human
insertion without altering the original details of the object. The method
consequently lifts inserted humans back to 3D to create 3D human-object pairs,
where the depth ambiguity is resolved within a depth optimization framework
that utilizes pre-generated human postures from multiple viewpoints. We also
provide a novel affordance representation defined on relative orientations and
proximity between dense human and object points, that can be easily aggregated
from any 3D HOI datasets. The proposed representation serves as a primitive
that can be manifested to conventional affordance representations via simple
transformations, ranging from physically exerted affordances to nonphysical
ones. We demonstrate the efficacy of our method and representation by
generating the 3D affordance samples and deriving high-quality affordance
examples from the representation, including contact, orientation, and spatial
occupancies.
- Abstract(参考訳): AIの大きな課題の1つは、機械に環境機能に正確に反応し、活用するように教えることである。
その重要性にもかかわらず、学習分野は、特に3Dにおいて、人間と物体の相互作用の多様さにより、アノテート・アノテート・アノテート・アコメンタンス(英語版)は、面倒なプロセスである。
アフォーアンスデータの低可用性は、オブジェクトカテゴリの一般化の観点からの学習を制限すると同時に、アフォーアンス表現を単純化し、アフォーアンスのほんの一部をキャプチャする。
これらの課題を克服するために,手作業でアノテーションを使わずに3dオブジェクトのみに3dアフォーアンスを生成できる,新しい自己教師付き手法を提案する。
この手法は3dオブジェクトを画像にキャプチャし、2dアフォーアンス画像を作成することから始まり、その画像に人間を塗りつぶし拡散モデルを通して挿入し、物体の本来の詳細を変更することなく、人間の挿入を可能にする適応マスクアルゴリズムを提案する。
この方法では、挿入された人間を3dへ持ち上げ、3dの人間と物体のペアを作り、複数の視点から予め生成された人間の姿勢を利用する深度最適化フレームワークの中で奥行きあいまいを解消する。
また,任意の3次元hoiデータセットから容易に集約できる,相対方向と密接な人間と対象点の近接について定義した新たなアフォーマンス表現を提供する。
提案された表現は、物理的に行使された価格から非物理学的な価格まで、単純な変換によって従来の空白表現に表せるプリミティブとして機能する。
本研究では, 3次元アフォーアンスサンプルを生成し, 接触, 方位, 空間占有率などの表現から高品質アフォーアンスサンプルを導出することにより, 提案手法と表現の有効性を示す。
関連論文リスト
- Primitive-based 3D Human-Object Interaction Modelling and Programming [59.47308081630886]
本研究では,人間と物体の両方を符号化する新しい3次元幾何学的原始言語を提案する。
プリミティブと画像を組み合わせた3D HAOIのベンチマークを構築した。
このプリミティブベースの3DHAOI表現は、3DHAOI研究の道を開くと信じている。
論文 参考訳(メタデータ) (2023-12-17T13:16:49Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。
この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。
我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文 参考訳(メタデータ) (2020-08-10T23:08:26Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。