論文の概要: ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.19370v1
- Date: Sun, 28 Jul 2024 02:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:32:13.559648
- Title: ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion Models
- Title(参考訳): ClickDiff: 拡散モデルを用いた制御可能なグラフ生成のためのセマンティックコンタクトマップ作成
- Authors: Peiming Li, Ziyi Wang, Mengyuan Liu, Hong Liu, Chen Chen,
- Abstract要約: ClickDiffは、きめ細かいセマンティックコンタクトマップを利用する制御可能な条件生成モデルである。
このフレームワーク内では、セマンティック条件付きモジュールは、きめ細かい接触情報に基づいて適切な接触マップを生成する。
提案手法の有効性を検証し,ClickDiffの有効性とロバスト性を実証した。
- 参考スコア(独自算出の注目度): 17.438429495623755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasp generation aims to create complex hand-object interactions with a specified object. While traditional approaches for hand generation have primarily focused on visibility and diversity under scene constraints, they tend to overlook the fine-grained hand-object interactions such as contacts, resulting in inaccurate and undesired grasps. To address these challenges, we propose a controllable grasp generation task and introduce ClickDiff, a controllable conditional generation model that leverages a fine-grained Semantic Contact Map (SCM). Particularly when synthesizing interactive grasps, the method enables the precise control of grasp synthesis through either user-specified or algorithmically predicted Semantic Contact Map. Specifically, to optimally utilize contact supervision constraints and to accurately model the complex physical structure of hands, we propose a Dual Generation Framework. Within this framework, the Semantic Conditional Module generates reasonable contact maps based on fine-grained contact information, while the Contact Conditional Module utilizes contact maps alongside object point clouds to generate realistic grasps. We evaluate the evaluation criteria applicable to controllable grasp generation. Both unimanual and bimanual generation experiments on GRAB and ARCTIC datasets verify the validity of our proposed method, demonstrating the efficacy and robustness of ClickDiff, even with previously unseen objects. Our code is available at https://github.com/adventurer-w/ClickDiff.
- Abstract(参考訳): Grasp生成は、指定されたオブジェクトとの複雑なハンドオブジェクトインタラクションを作成することを目的としている。
従来のハンドジェネレーションのアプローチは、主にシーン制約下での可視性と多様性に焦点を当ててきたが、接触のような細粒度のハンドオブジェクトの相互作用を見落とし、不正確な、望ましくない把握をもたらす傾向にある。
これらの課題に対処するために、制御可能なグリップ生成タスクを提案し、きめ細かなセマンティックコンタクトマップ(SCM)を利用した制御可能な条件生成モデルであるClickDiffを導入する。
特に,対話型グリップを合成する際には,ユーザが特定またはアルゴリズムで予測したセマンティック・コンタクトマップを用いて,グリップ合成を正確に制御することができる。
具体的には、接触監督制約を最適に活用し、複雑な手の構造を正確にモデル化するために、デュアルジェネレーションフレームワークを提案する。
このフレームワーク内では、セマンティック・コンディショナリ・モジュールは、きめ細かい接触情報に基づいて適切なコンタクトマップを生成する一方、コンタクト・コンディショナリ・モジュールは、オブジェクトポイント・クラウドの横にあるコンタクトマップを使用して、現実的な把握を生成する。
制御可能なグリップ生成に適用可能な評価基準を評価する。
GRAB および ARCTIC を用いた一元的および二元的生成実験は,提案手法の有効性を検証し,従来見つからなかったオブジェクトであっても,ClickDiff の有効性とロバスト性を示す。
私たちのコードはhttps://github.com/adventurer-w/ClickDiff.comで公開されています。
関連論文リスト
- Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [52.36691633451968]
ViTaM-Dは動的手動物体相互作用再構成のための視覚触覚フレームワークである。
DF-Fieldは分散力認識型接触表現モデルである。
剛性および変形性のある物体再構成におけるViTaM-Dの優れた性能について検討した。
論文 参考訳(メタデータ) (2024-11-14T16:29:45Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - ContactGen: Generative Contact Modeling for Grasp Generation [37.56729700157981]
本稿では,手動物体間相互作用のためのオブジェクト中心の接触表現型コンタクトGenを提案する。
本研究では,ContactGen予測のための条件生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-05T17:59:45Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Integrated Object Deformation and Contact Patch Estimation from
Visuo-Tactile Feedback [8.420670642409219]
本稿では,ビジュオ触覚フィードバックからオブジェクトの変形と接触パッチを共同でモデル化する表現を提案する。
我々は,NDCFを学習するためのニューラルネットワークアーキテクチャを提案し,シミュレーションデータを用いて学習する。
我々は,学習したNDCFが微調整を必要とせず,直接現実世界に転送されることを実証した。
論文 参考訳(メタデータ) (2023-05-23T18:53:24Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Contact2Grasp: 3D Grasp Synthesis via Hand-Object Contact Constraint [18.201389966034263]
3Dグリップ合成は、入力対象が与えられたグリップポーズを生成する。
本研究では, 接触領域を把握するための中間変数を導入し, グリップ生成を制約する。
本手法は,各種メトリクスの把握に関する最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-17T16:39:25Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Hand-Object Contact Prediction via Motion-Based Pseudo-Labeling and
Guided Progressive Label Correction [27.87570749976023]
本稿では,手と物体の接触を予測するビデオベース手法を提案する。
多数のハンドオブジェクトトラックやコンタクトラベルに注釈をつけるのはコストがかかる。
i)モーションベース擬似ラベルを用いたトレーニングデータの自動収集と(ii)ガイド付きプログレッシブラベル補正(gPLC)からなる半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T18:00:02Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Relational Message Passing for Knowledge Graph Completion [78.47976646383222]
本稿では,知識グラフ補完のためのリレーショナルメッセージパッシング手法を提案する。
エッジ間でリレーショナルメッセージを反復的に送信し、近隣情報を集約する。
その結果,本手法は最先端の知識完成手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-17T03:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。