論文の概要: Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors
- arxiv url: http://arxiv.org/abs/2209.02485v1
- Date: Tue, 6 Sep 2022 13:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:26:08.572448
- Title: Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors
- Title(参考訳): Commonsense Knowledge Priors を用いた行動記述型ヒューマンオブジェクトインタラクションの再構築
- Authors: Xi Wang, Gen Li, Yen-Ling Kuo, Muhammed Kocabas, Emre Aksan, Otmar
Hilliges
- Abstract要約: 本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
- 参考スコア(独自算出の注目度): 42.17542596399014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for inferring diverse 3D models of human-object
interactions from images. Reasoning about how humans interact with objects in
complex scenes from a single 2D image is a challenging task given ambiguities
arising from the loss of information through projection. In addition, modeling
3D interactions requires the generalization ability towards diverse object
categories and interaction types. We propose an action-conditioned modeling of
interactions that allows us to infer diverse 3D arrangements of humans and
objects without supervision on contact regions or 3D scene geometry. Our method
extracts high-level commonsense knowledge from large language models (such as
GPT-3), and applies them to perform 3D reasoning of human-object interactions.
Our key insight is priors extracted from large language models can help in
reasoning about human-object contacts from textural prompts only. We
quantitatively evaluate the inferred 3D models on a large human-object
interaction dataset and show how our method leads to better 3D reconstructions.
We further qualitatively evaluate the effectiveness of our method on real
images and demonstrate its generalizability towards interaction types and
object categories.
- Abstract(参考訳): 画像から人-物間相互作用の多様な3次元モデルを推定する手法を提案する。
1枚の2d画像から人間が複雑なシーンでどのようにオブジェクトと相互作用するかを推論することは、投影による情報の喪失から生じる曖昧さを考えると難しい課題である。
さらに、3dインタラクションのモデリングには、多様なオブジェクトカテゴリとインタラクションタイプに対する一般化機能が必要である。
本研究では,人間と物体の多様な3次元配置を,接触領域や3次元シーン形状の監督なしに推測できるインタラクションの動作条件モデリングを提案する。
本手法は,大規模言語モデル(gpt-3など)から高レベルコモンセンス知識を抽出し,人間と物体の相互作用を3次元推論する。
我々の重要な洞察は、大きな言語モデルから抽出された先行情報が、文章のプロンプトからのみ人間と物体の接触を推測するのに役立ちます。
大規模人・物間相互作用データセットを用いて推定された3次元モデルを定量的に評価し,提案手法がより優れた3次元再構成を実現する方法を示す。
さらに,実画像における本手法の有効性を定性的に評価し,対話型や対象カテゴリに対する一般化性を示す。
関連論文リスト
- Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer [58.98785899556135]
本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。
本システムには,1)3次元ガイドによる接触推定と,2)接触に基づく人間と物体の微細化の2つのコア設計がある。
論文 参考訳(メタデータ) (2024-04-07T06:01:49Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。
我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。
我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文 参考訳(メタデータ) (2023-12-12T08:32:55Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from
Unbounded Synthesized Images [10.4286198282079]
本研究では,3次元における多種多様な物体間相互作用の空間的共通感覚を理解し,モデル化する手法を提案する。
我々は、人間が同じ種類の物体と対話するとき、異なる視点から撮影した複数の2D画像を示す。
実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-08-23T17:59:11Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。