論文の概要: FastGrasp: Efficient Grasp Synthesis with Diffusion
- arxiv url: http://arxiv.org/abs/2411.14786v1
- Date: Fri, 22 Nov 2024 08:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:21.233801
- Title: FastGrasp: Efficient Grasp Synthesis with Diffusion
- Title(参考訳): FastGrasp: 拡散による効率的なグラフ合成
- Authors: Xiaofei Wu, Tao Liu, Caoji Li, Yuexin Ma, Yujiao Shi, Xuming He,
- Abstract要約: 本稿では,一段階的に把握ポーズを生成する拡散モデルに基づく新しいアプローチを提案する。
これにより、生成速度と生成した手ポーズの多様性を大幅に改善できる。
提案手法は,最先端手法よりも高速な推論,多様性の向上,ポーズの質の向上を実現している。
- 参考スコア(独自算出の注目度): 25.91329341243337
- License:
- Abstract: Effectively modeling the interaction between human hands and objects is challenging due to the complex physical constraints and the requirement for high generation efficiency in applications. Prior approaches often employ computationally intensive two-stage approaches, which first generate an intermediate representation, such as contact maps, followed by an iterative optimization procedure that updates hand meshes to capture the hand-object relation. However, due to the high computation complexity during the optimization stage, such strategies often suffer from low efficiency in inference. To address this limitation, this work introduces a novel diffusion-model-based approach that generates the grasping pose in a one-stage manner. This allows us to significantly improve generation speed and the diversity of generated hand poses. In particular, we develop a Latent Diffusion Model with an Adaptation Module for object-conditioned hand pose generation and a contact-aware loss to enforce the physical constraints between hands and objects. Extensive experiments demonstrate that our method achieves faster inference, higher diversity, and superior pose quality than state-of-the-art approaches. Code is available at \href{https://github.com/wuxiaofei01/FastGrasp}{https://github.com/wuxiaofei01/FastGrasp.}
- Abstract(参考訳): 人手とオブジェクト間の相互作用を効果的にモデル化することは、複雑な物理的制約と、アプリケーションにおけるハイジェネレーション効率の要求のために困難である。
従来のアプローチでは、まずコンタクトマップなどの中間表現を生成し、次にハンドメッシュを更新してハンドオブジェクトの関係をキャプチャする反復的な最適化手順が用いられる。
しかしながら、最適化段階での計算の複雑さが高いため、そのような戦略は推論の効率の低下に悩まされることが多い。
この制限に対処するために、この研究は1段階の方法で把握ポーズを生成する新しい拡散モデルに基づくアプローチを導入している。
これにより、生成速度と生成した手ポーズの多様性を大幅に改善できる。
特に,オブジェクト条件付き手ポーズ生成のための適応モジュールと,手とオブジェクト間の物理的制約を強制するための接触認識損失を備えた潜時拡散モデルを開発した。
大規模な実験により,本手法は最先端の手法よりも高速な推論,多様性の向上,ポーズの質の向上を実現している。
コードは \href{https://github.com/wuxiaofei01/FastGrasp}{https://github.com/wuxiaofei01/FastGraspで入手できる。
※
関連論文リスト
- Diversify, Contextualize, and Adapt: Efficient Entropy Modeling for Neural Image Codec [11.078070771578837]
より効率的な後方適応型エントロピーモデルが最近開発されている。
彼らのパフォーマンスは、前向きな適応のためのデザイン規約のシンプルな採用によって制限されている、と私たちは主張する。
本稿では,ビットレートを犠牲にすることなく,事前適応に十分なコンテキストを利用する,シンプルで効果的なエントロピーモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T04:30:04Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation [27.206656215734295]
本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。
部分認識の分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理するのに役立つ。
提案モデルでは,4つのベンチマークにおいて,最先端の手法と比較して,品質指標の14.1%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-07-19T06:41:16Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文 参考訳(メタデータ) (2021-11-01T07:03:14Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。