論文の概要: Zero-Shot Learning for the Primitives of 3D Affordance in General
Objects
- arxiv url: http://arxiv.org/abs/2401.12978v1
- Date: Tue, 23 Jan 2024 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:48:59.863066
- Title: Zero-Shot Learning for the Primitives of 3D Affordance in General
Objects
- Title(参考訳): 汎用オブジェクトにおける3次元アフォーアンスプリミティブのためのゼロショット学習
- Authors: Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo
- Abstract要約: 本稿では,3次元オブジェクトのみを対象とする3次元割当例を生成するための,新しい自己監督手法を提案する。
本稿では,適応マスクアルゴリズムを用いて,オブジェクトの本来の詳細を変更することなく,人間の挿入を可能にする。
また、相対的な配向と、密接な人間と物体の近さで定義される新しい余剰表現も提供する。
- 参考スコア(独自算出の注目度): 9.759272826505821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the major challenges in AI is teaching machines to precisely respond
and utilize environmental functionalities, thereby achieving the affordance
awareness that humans possess. Despite its importance, the field has been
lagging in terms of learning, especially in 3D, as annotating affordance
accompanies a laborious process due to the numerous variations of human-object
interaction. The low availability of affordance data limits the learning in
terms of generalization for object categories, and also simplifies the
representation of affordance, capturing only a fraction of the affordance. To
overcome these challenges, we propose a novel, self-supervised method to
generate the 3D affordance examples given only a 3D object, without any manual
annotations. The method starts by capturing the 3D object into images and
creating 2D affordance images by inserting humans into the image via inpainting
diffusion models, where we present the Adaptive Mask algorithm to enable human
insertion without altering the original details of the object. The method
consequently lifts inserted humans back to 3D to create 3D human-object pairs,
where the depth ambiguity is resolved within a depth optimization framework
that utilizes pre-generated human postures from multiple viewpoints. We also
provide a novel affordance representation defined on relative orientations and
proximity between dense human and object points, that can be easily aggregated
from any 3D HOI datasets. The proposed representation serves as a primitive
that can be manifested to conventional affordance representations via simple
transformations, ranging from physically exerted affordances to nonphysical
ones. We demonstrate the efficacy of our method and representation by
generating the 3D affordance samples and deriving high-quality affordance
examples from the representation, including contact, orientation, and spatial
occupancies.
- Abstract(参考訳): AIの大きな課題の1つは、機械に環境機能に正確に反応し、活用するように教えることである。
その重要性にもかかわらず、学習分野は、特に3Dにおいて、人間と物体の相互作用の多様さにより、アノテート・アノテート・アノテート・アコメンタンス(英語版)は、面倒なプロセスである。
アフォーアンスデータの低可用性は、オブジェクトカテゴリの一般化の観点からの学習を制限すると同時に、アフォーアンス表現を単純化し、アフォーアンスのほんの一部をキャプチャする。
これらの課題を克服するために,手作業でアノテーションを使わずに3dオブジェクトのみに3dアフォーアンスを生成できる,新しい自己教師付き手法を提案する。
この手法は3dオブジェクトを画像にキャプチャし、2dアフォーアンス画像を作成することから始まり、その画像に人間を塗りつぶし拡散モデルを通して挿入し、物体の本来の詳細を変更することなく、人間の挿入を可能にする適応マスクアルゴリズムを提案する。
この方法では、挿入された人間を3dへ持ち上げ、3dの人間と物体のペアを作り、複数の視点から予め生成された人間の姿勢を利用する深度最適化フレームワークの中で奥行きあいまいを解消する。
また,任意の3次元hoiデータセットから容易に集約できる,相対方向と密接な人間と対象点の近接について定義した新たなアフォーマンス表現を提供する。
提案された表現は、物理的に行使された価格から非物理学的な価格まで、単純な変換によって従来の空白表現に表せるプリミティブとして機能する。
本研究では, 3次元アフォーアンスサンプルを生成し, 接触, 方位, 空間占有率などの表現から高品質アフォーアンスサンプルを導出することにより, 提案手法と表現の有効性を示す。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z) - Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。
この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。
我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文 参考訳(メタデータ) (2020-08-10T23:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。