論文の概要: Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation
- arxiv url: http://arxiv.org/abs/2407.14062v1
- Date: Fri, 19 Jul 2024 06:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:33:40.786493
- Title: Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation
- Title(参考訳): ヒトグラフ生成のための分解ベクトル量子変分オートエンコーダ
- Authors: Zhe Zhao, Mengshi Qi, Huadong Ma,
- Abstract要約: 本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。
部分認識の分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理するのに役立つ。
提案モデルでは,4つのベンチマークにおいて,最先端の手法と比較して,品質指標の14.1%の相対的な改善を実現した。
- 参考スコア(独自算出の注目度): 27.206656215734295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic human grasps is a crucial yet challenging task for applications involving object manipulation in computer graphics and robotics. Existing methods often struggle with generating fine-grained realistic human grasps that ensure all fingers effectively interact with objects, as they focus on encoding hand with the whole representation and then estimating both hand posture and position in a single step. In this paper, we propose a novel Decomposed Vector-Quantized Variational Autoencoder (DVQ-VAE) to address this limitation by decomposing hand into several distinct parts and encoding them separately. This part-aware decomposed architecture facilitates more precise management of the interaction between each component of hand and object, enhancing the overall reality of generated human grasps. Furthermore, we design a newly dual-stage decoding strategy, by first determining the type of grasping under skeletal physical constraints, and then identifying the location of the grasp, which can greatly improve the verisimilitude as well as adaptability of the model to unseen hand-object interaction. In experiments, our model achieved about 14.1% relative improvement in the quality index compared to the state-of-the-art methods in four widely-adopted benchmarks. Our source code is available at https://github.com/florasion/D-VQVAE.
- Abstract(参考訳): コンピュータグラフィックスやロボット工学におけるオブジェクト操作を含むアプリケーションにとって、現実的な人間の握りを生成することは、非常に難しい課題である。
既存の手法では、すべての指がオブジェクトと効果的に相互作用する、きめ細かな人間の把握を生成するのに苦労することが多い。
本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。
この部分認識分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理し、生成された人間の把握の全体的な現実性を高める。
さらに,両段階の復号化戦略を設計し,まず骨格の物理的制約下での把握のタイプを判断し,その位置を同定し,検証精度を大幅に向上させるとともに,手-物体の相互作用を未確認にするためのモデルの適応性を向上する。
実験では,4つの広く評価されたベンチマークの最先端手法と比較して,品質指標の14.1%の相対的な改善が得られた。
ソースコードはhttps://github.com/florasion/D-VQVAE.comで公開されています。
関連論文リスト
- HandDAGT: A Denoising Adaptive Graph Transformer for 3D Hand Pose Estimation [15.606904161622017]
本稿では,ハンドポーズ推定のためのDenoising Adaptive Graph Transformer(HandDAGT)を提案する。
特定のキーポイントを推定するための運動対応と局所幾何学的特徴の寄与を適応的に評価する新しい注意機構が組み込まれている。
実験の結果,提案手法は4つの手ポーズベンチマークデータセットにおいて,既存の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-07-30T04:53:35Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for
Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。
さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。
このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文 参考訳(メタデータ) (2023-12-02T13:17:10Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Fast and Expressive Gesture Recognition using a Combination-Homomorphic
Electromyogram Encoder [21.25126610043744]
筋電図を用いたジェスチャー認識の課題について検討する。
方向成分と変調器成分を組み合わせたジェスチャーを定義する。
新しい被験者は単一のコンポーネントジェスチャしか示さない。
実際の単一のジェスチャーの特徴ベクトルを組み合わせて合成学習データを生成することで、見知らぬ組み合わせのジェスチャーに外挿する。
論文 参考訳(メタデータ) (2023-10-30T20:03:34Z) - A Multi-label Classification Approach to Increase Expressivity of
EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。
動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文 参考訳(メタデータ) (2023-09-13T20:21:41Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。