論文の概要: Affordance Diffusion: Synthesizing Hand-Object Interactions
- arxiv url: http://arxiv.org/abs/2303.12538v2
- Date: Sat, 25 Mar 2023 17:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:02:31.232808
- Title: Affordance Diffusion: Synthesizing Hand-Object Interactions
- Title(参考訳): Affordance Diffusion: ハンドオブジェクトインタラクションの合成
- Authors: Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan
Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu
- Abstract要約: 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。
そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
- 参考スコア(独自算出の注目度): 81.98499943996394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent successes in image synthesis are powered by large-scale diffusion
models. However, most methods are currently limited to either text- or
image-conditioned generation for synthesizing an entire image, texture transfer
or inserting objects into a user-specified region. In contrast, in this work we
focus on synthesizing complex interactions (ie, an articulated hand) with a
given object. Given an RGB image of an object, we aim to hallucinate plausible
images of a human hand interacting with it. We propose a two-step generative
approach: a LayoutNet that samples an articulation-agnostic
hand-object-interaction layout, and a ContentNet that synthesizes images of a
hand grasping the object given the predicted layout. Both are built on top of a
large-scale pretrained diffusion model to make use of its latent
representation. Compared to baselines, the proposed method is shown to
generalize better to novel objects and perform surprisingly well on
out-of-distribution in-the-wild scenes of portable-sized objects. The resulting
system allows us to predict descriptive affordance information, such as hand
articulation and approaching orientation. Project page:
https://judyye.github.io/affordiffusion-www
- Abstract(参考訳): 最近の画像合成の成功は大規模拡散モデルに支えられている。
しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。
これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。
本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。
どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。
提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。
その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。
プロジェクトページ: https://judyye.github.io/affordiffusion-www
関連論文リスト
- GraspDiffusion: Synthesizing Realistic Whole-body Hand-Object Interaction [9.564223516111275]
最近の生成モデルは高品質な画像を合成できるが、しばしば手を使って物体と相互作用する人間の生成に失敗する。
本稿では,人間と物体の相互作用の現実的なシーンを生成する新しい生成法であるGraspDiffusionを提案する。
論文 参考訳(メタデータ) (2024-10-17T01:45:42Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。
本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。
生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:48:31Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。
本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文 参考訳(メタデータ) (2022-07-20T06:38:04Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。