論文の概要: H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows
- arxiv url: http://arxiv.org/abs/2510.21769v1
- Date: Fri, 17 Oct 2025 00:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.963048
- Title: H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows
- Title(参考訳): H2OFlow:3次元生成モデルとDense Diffused Flowによる人物体のグラウンド化
- Authors: Harry Zhang, Luca Carlone,
- Abstract要約: emphH2OFlowは、3D生成モデルから生成された合成データのみを使用して、3D HOIの可利用性を学ぶ新しいフレームワークである。
現実世界のオブジェクトに効果的に一般化し、手動のアノテーションやメッシュベースの表現に依存する従来のメソッドを超える。
- 参考スコア(独自算出の注目度): 20.637224080557534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how humans interact with the surrounding environment, and specifically reasoning about object interactions and affordances, is a critical challenge in computer vision, robotics, and AI. Current approaches often depend on labor-intensive, hand-labeled datasets capturing real-world or simulated human-object interaction (HOI) tasks, which are costly and time-consuming to produce. Furthermore, most existing methods for 3D affordance understanding are limited to contact-based analysis, neglecting other essential aspects of human-object interactions, such as orientation (\eg, humans might have a preferential orientation with respect certain objects, such as a TV) and spatial occupancy (\eg, humans are more likely to occupy certain regions around an object, like the front of a microwave rather than its back). To address these limitations, we introduce \emph{H2OFlow}, a novel framework that comprehensively learns 3D HOI affordances -- encompassing contact, orientation, and spatial occupancy -- using only synthetic data generated from 3D generative models. H2OFlow employs a dense 3D-flow-based representation, learned through a dense diffusion process operating on point clouds. This learned flow enables the discovery of rich 3D affordances without the need for human annotations. Through extensive quantitative and qualitative evaluations, we demonstrate that H2OFlow generalizes effectively to real-world objects and surpasses prior methods that rely on manual annotations or mesh-based representations in modeling 3D affordance.
- Abstract(参考訳): 人間が周囲の環境とどのように相互作用するかを理解し、特に物体の相互作用や余裕について推論することは、コンピュータビジョン、ロボティクス、AIにおいて重要な課題である。
現在のアプローチは、しばしば労働集約的で手作業によるデータセットに頼っている。
さらに、既存の3Dアベイランス理解法のほとんどは接触に基づく分析に限られており、人間と物体の相互作用の他の重要な側面を無視している(例えば、人間はテレビのような特定の物体に対して優先的な向きを持つかもしれない)。
これらの制約に対処するために,3次元生成モデルから生成された合成データのみを用いて,接触,向き,空間的占有を包括的に学習する新しいフレームワークである \emph{H2OFlow} を紹介した。
H2OFlowは、高密度な3Dフローベースの表現を採用し、点雲上で動く高密度拡散プロセスを通じて学習する。
この学習フローは、人間のアノテーションを必要とせずに、リッチな3D価格の発見を可能にする。
本研究では,H2OFlowが実世界のオブジェクトに効果的に一般化し,手動のアノテーションやメッシュベースの3Dアベイランスの表現に依存する従来の手法を超えることを実証する。
関連論文リスト
- InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。
既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。
本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:33Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。