Fugu-MT 論文翻訳(概要): Multi-Modal Diffusion for Hand-Object Grasp Generation

論文の概要: Multi-Modal Diffusion for Hand-Object Grasp Generation

arxiv url: http://arxiv.org/abs/2409.04560v1
Date: Fri, 6 Sep 2024 18:47:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 22:10:46.313718
Title: Multi-Modal Diffusion for Hand-Object Grasp Generation
Title（参考訳）: ハンドオブジェクトグラフ生成のための多モード拡散
Authors: Jinkun Cao, Jingyuan Liu, Kris Kitani, Yi Zhou,
Abstract要約: 本研究では,物体の握手に焦点をあてる。対象物を用いてポーズを生成する従来の手法と比較して,手と物体の形状を1つのモデルで一般化することを目指している。提案手法は,多モードグラフ拡散法(MGD)を用いて,不均一なデータソースから両モードの事前および条件付き後部分布を学習する。
参考スコア（独自算出の注目度）: 31.142035354489305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we focus on generating hand grasp over objects. Compared to previous works of generating hand poses with a given object, we aim to allow the generalization of both hand and object shapes by a single model. Our proposed method Multi-modal Grasp Diffusion (MGD) learns the prior and conditional posterior distribution of both modalities from heterogeneous data sources. Therefore it relieves the limitation of hand-object grasp datasets by leveraging the large-scale 3D object datasets. According to both qualitative and quantitative experiments, both conditional and unconditional generation of hand grasp achieve good visual plausibility and diversity. The proposed method also generalizes well to unseen object shapes. The code and weights will be available at \url{https://github.com/noahcao/mgd}.
Abstract（参考訳）: 本研究では,物体の握手に焦点をあてる。対象物を用いてポーズを生成する従来の手法と比較して,手と物体の形状を1つのモデルで一般化することを目指している。提案手法は,多モードグラフ拡散法(MGD)を用いて,不均一なデータソースから両モードの事前および条件付き後部分布を学習する。そのため、大規模な3Dオブジェクトデータセットを活用することにより、手動物体把握データセットの制限を緩和する。定性的・定量的な両実験により,手つかみの条件的・非条件的生成は良好な視覚的妥当性と多様性が得られる。提案手法は、見えない物体の形状をよく一般化する。コードとウェイトは \url{https://github.com/noahcao/mgd} で入手できる。

関連論文リスト

GAOT: Generating Articulated Objects Through Text-Guided Diffusion Models [26.691223595006893]
GAOTはテキストプロンプトから明瞭なオブジェクトを生成するフレームワークである。ハイパーグラフに基づく学習は、これらの粗い表現を洗練するために使用される。グラフエッジとして表現された明瞭な物体の関節は、対象部分に基づいて生成される。
論文参考訳（メタデータ） (2025-12-03T08:44:17Z)
UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation [82.93208597526503]
既存のメソッドは、オブジェクトと対話する素手または手に焦点を当てて、特殊化されている。他のシナリオに適用しても、どちらのメソッドも柔軟にシナリオとパフォーマンスの低下を処理できません。汎用的な3次元手動ポーズ推定のための統一的なアプローチであるUniHOPEを提案する。
論文参考訳（メタデータ） (2025-03-17T15:46:43Z)
Grasp Diffusion Network: Learning Grasp Generators from Partial Point Clouds with Diffusion Models in SO(3)xR3 [15.011589108235702]
シミュレーションを利用して、オブジェクトのペアのデータセットを作成し、ポーズを把握します。次に、デプロイ中に素早く起動できる条件生成モデルを学びます。シミュレーションと実世界の実験で、我々は90%以上の成功率でいくつかのオブジェクトを把握できることを示した。
論文参考訳（メタデータ） (2024-12-11T14:17:17Z)
Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文参考訳（メタデータ） (2024-11-24T14:31:50Z)
G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文参考訳（メタデータ） (2024-04-18T17:59:28Z)
HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文参考訳（メタデータ） (2024-03-18T17:48:31Z)
D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文参考訳（メタデータ） (2023-11-23T20:14:50Z)
GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。 GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-28T08:57:14Z)
DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。 DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文参考訳（メタデータ） (2023-06-28T16:07:36Z)
Affordance Diffusion: Synthesizing Hand-Object Interactions [81.98499943996394]
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
論文参考訳（メタデータ） (2023-03-21T17:59:10Z)
Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文参考訳（メタデータ） (2022-11-16T10:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。