論文の概要: Affordance Diffusion: Synthesizing Hand-Object Interactions
- arxiv url: http://arxiv.org/abs/2303.12538v1
- Date: Tue, 21 Mar 2023 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:05:51.651127
- Title: Affordance Diffusion: Synthesizing Hand-Object Interactions
- Title(参考訳): Affordance Diffusion: ハンドオブジェクトインタラクションの合成
- Authors: Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan
Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu
- Abstract要約: 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。
そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
- 参考スコア(独自算出の注目度): 81.98499943996394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent successes in image synthesis are powered by large-scale diffusion
models. However, most methods are currently limited to either text- or
image-conditioned generation for synthesizing an entire image, texture transfer
or inserting objects into a user-specified region. In contrast, in this work we
focus on synthesizing complex interactions (ie, an articulated hand) with a
given object. Given an RGB image of an object, we aim to hallucinate plausible
images of a human hand interacting with it. We propose a two-step generative
approach: a LayoutNet that samples an articulation-agnostic
hand-object-interaction layout, and a ContentNet that synthesizes images of a
hand grasping the object given the predicted layout. Both are built on top of a
large-scale pretrained diffusion model to make use of its latent
representation. Compared to baselines, the proposed method is shown to
generalize better to novel objects and perform surprisingly well on
out-of-distribution in-the-wild scenes of portable-sized objects. The resulting
system allows us to predict descriptive affordance information, such as hand
articulation and approaching orientation. Project page:
https://judyye.github.io/affordiffusion-www
- Abstract(参考訳): 最近の画像合成の成功は大規模拡散モデルに支えられている。
しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。
これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。
本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。
どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。
提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。
その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。
プロジェクトページ: https://judyye.github.io/affordiffusion-www
関連論文リスト
- Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data
Generation Framework using Foundational Models [0.0]
テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。
しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して、正確な画像を生成することができない。
論文 参考訳(メタデータ) (2023-12-23T12:59:22Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。
本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文 参考訳(メタデータ) (2022-07-20T06:38:04Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。