Fugu-MT 論文翻訳(概要): Zero-Shot Learning for the Primitives of 3D Affordance in General Objects

論文の概要: Zero-Shot Learning for the Primitives of 3D Affordance in General Objects

arxiv url: http://arxiv.org/abs/2401.12978v2
Date: Wed, 24 Jan 2024 11:46:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 11:41:07.535973
Title: Zero-Shot Learning for the Primitives of 3D Affordance in General Objects
Title（参考訳）: 汎用オブジェクトにおける3次元アフォーアンスプリミティブのためのゼロショット学習
Authors: Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo
Abstract要約: 本稿では,3次元オブジェクトのみを対象とする3次元割当例を生成するための,新しい自己監督手法を提案する。本稿では,適応マスクアルゴリズムを用いて,オブジェクトの本来の詳細を変更することなく,人間の挿入を可能にする。また、相対的な配向と、密接な人間と物体の近さで定義される新しい余剰表現も提供する。
参考スコア（独自算出の注目度）: 9.759272826505821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the major challenges in AI is teaching machines to precisely respond and utilize environmental functionalities, thereby achieving the affordance awareness that humans possess. Despite its importance, the field has been lagging in terms of learning, especially in 3D, as annotating affordance accompanies a laborious process due to the numerous variations of human-object interaction. The low availability of affordance data limits the learning in terms of generalization for object categories, and also simplifies the representation of affordance, capturing only a fraction of the affordance. To overcome these challenges, we propose a novel, self-supervised method to generate the 3D affordance examples given only a 3D object, without any manual annotations. The method starts by capturing the 3D object into images and creating 2D affordance images by inserting humans into the image via inpainting diffusion models, where we present the Adaptive Mask algorithm to enable human insertion without altering the original details of the object. The method consequently lifts inserted humans back to 3D to create 3D human-object pairs, where the depth ambiguity is resolved within a depth optimization framework that utilizes pre-generated human postures from multiple viewpoints. We also provide a novel affordance representation defined on relative orientations and proximity between dense human and object points, that can be easily aggregated from any 3D HOI datasets. The proposed representation serves as a primitive that can be manifested to conventional affordance representations via simple transformations, ranging from physically exerted affordances to nonphysical ones. We demonstrate the efficacy of our method and representation by generating the 3D affordance samples and deriving high-quality affordance examples from the representation, including contact, orientation, and spatial occupancies.
Abstract（参考訳）: AIの大きな課題の1つは、機械に環境機能に正確に反応し、活用するように教えることである。その重要性にもかかわらず、学習分野は、特に3Dにおいて、人間と物体の相互作用の多様さにより、アノテート・アノテート・アノテート・アコメンタンス(英語版)は、面倒なプロセスである。アフォーアンスデータの低可用性は、オブジェクトカテゴリの一般化の観点からの学習を制限すると同時に、アフォーアンス表現を単純化し、アフォーアンスのほんの一部をキャプチャする。これらの課題を克服するために,手作業でアノテーションを使わずに3dオブジェクトのみに3dアフォーアンスを生成できる,新しい自己教師付き手法を提案する。この手法は3dオブジェクトを画像にキャプチャし、2dアフォーアンス画像を作成することから始まり、その画像に人間を塗りつぶし拡散モデルを通して挿入し、物体の本来の詳細を変更することなく、人間の挿入を可能にする適応マスクアルゴリズムを提案する。この方法では、挿入された人間を3dへ持ち上げ、3dの人間と物体のペアを作り、複数の視点から予め生成された人間の姿勢を利用する深度最適化フレームワークの中で奥行きあいまいを解消する。また,任意の3次元hoiデータセットから容易に集約できる,相対方向と密接な人間と対象点の近接について定義した新たなアフォーマンス表現を提供する。提案された表現は、物理的に行使された価格から非物理学的な価格まで、単純な変換によって従来の空白表現に表せるプリミティブとして機能する。本研究では, 3次元アフォーアンスサンプルを生成し, 接触, 方位, 空間占有率などの表現から高品質アフォーアンスサンプルを導出することにより, 提案手法と表現の有効性を示す。

関連論文リスト

H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows [20.637224080557534]
emphH2OFlowは、3D生成モデルから生成された合成データのみを使用して、3D HOIの可利用性を学ぶ新しいフレームワークである。現実世界のオブジェクトに効果的に一般化し、手動のアノテーションやメッシュベースの表現に依存する従来のメソッドを超える。
論文参考訳（メタデータ） (2025-10-17T00:30:13Z)
InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing [36.29681929804816]
特定のデータセットをトレーニングすることなく,新たなゼロショット3DHOI生成フレームワークを提案する。トレーニング済みの2次元画像拡散モデルを用いて、見えない物体を解析し、接触点を抽出する。次に、細粒度、精密、そして自然な相互作用を生成するための詳細な最適化を導入し、3Dオブジェクトと関連する身体部分との間の現実的な3D接触を強制する。
論文参考訳（メタデータ） (2025-05-30T07:53:55Z)
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文参考訳（メタデータ） (2025-04-07T17:59:33Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文参考訳（メタデータ） (2025-03-25T23:55:47Z)
TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions [33.58559068016724]
本稿では,3次元オブジェクト間相互作用(HOI)をモデル化するための最初の統一モデルを提案する。我々は,新しい3方向拡散プロセスと同時に,人・物・相互作用のモダリティを生成する。本稿では,TriDiをシーン群に適用し,人間と接触したデータセットのオブジェクトを生成し,オブジェクトの幾何学を一般化する。
論文参考訳（メタデータ） (2024-12-09T09:35:05Z)
StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文参考訳（メタデータ） (2024-07-30T04:57:21Z)
G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文参考訳（メタデータ） (2024-04-18T17:59:28Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文参考訳（メタデータ） (2023-12-11T17:41:17Z)
DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文参考訳（メタデータ） (2023-09-26T21:21:07Z)
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文参考訳（メタデータ） (2023-08-31T17:59:08Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文参考訳（メタデータ） (2022-09-06T13:32:55Z)
PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文参考訳（メタデータ） (2020-08-12T21:00:10Z)
Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文参考訳（メタデータ） (2020-08-10T23:08:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。