Fugu-MT 論文翻訳(概要): RegionGrasp: A Novel Task for Contact Region Controllable Hand Grasp Generation

論文の概要: RegionGrasp: A Novel Task for Contact Region Controllable Hand Grasp Generation

arxiv url: http://arxiv.org/abs/2410.07995v1
Date: Thu, 10 Oct 2024 14:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 06:05:02.978668
Title: RegionGrasp: A Novel Task for Contact Region Controllable Hand Grasp Generation
Title（参考訳）: RegionGrasp: 接触領域制御可能なハンドグラス生成のための新しいタスク
Authors: Yilin Wang, Chuan Guo, Li Cheng, Hai Jiang,
Abstract要約: RegionGrasp-CVAEは3Dオブジェクトの可塑性ハンドグリップを生成するために提案されている。コンディションエンコーダO-Encとプレトレーニング戦略O-Encを用いる。 Hoinetは手動オブジェクトのインタラクション機能をエンコードするために導入された。
参考スコア（独自算出の注目度）: 35.11194409871017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Can machine automatically generate multiple distinct and natural hand grasps, given specific contact region of an object in 3D? This motivates us to consider a novel task of \textit{Region Controllable Hand Grasp Generation (RegionGrasp)}, as follows: given as input a 3D object, together with its specific surface area selected as the intended contact region, to generate a diverse set of plausible hand grasps of the object, where the thumb finger tip touches the object surface on the contact region. To address this task, RegionGrasp-CVAE is proposed, which consists of two main parts. First, to enable contact region-awareness, we propose ConditionNet as the condition encoder that includes in it a transformer-backboned object encoder, O-Enc; a pretraining strategy is adopted by O-Enc, where the point patches of object surface are randomly masked off and subsequently restored, to further capture surface geometric information of the object. Second, to realize interaction awareness, HOINet is introduced to encode hand-object interaction features by entangling high-level hand features with embedded object features through geometric-aware multi-head cross attention. Empirical evaluations demonstrate the effectiveness of our approach qualitatively and quantitatively where it is shown to compare favorably with respect to the state of the art methods.
Abstract（参考訳）: マシンは、物体の特定の接触領域を3Dで自動生成できるのか? これにより、3Dオブジェクトを入力として、対象の接触領域として選択された特定の表面領域と共に与え、指先が接触領域の物体表面に触れる、オブジェクトの多様な可視的手つかみを生成するという、新しいタスク(RegionGrasp)}を考えることができる。この課題に対処するため、RegionalGrasp-CVAEが提案されている。まず, 接触領域認識を可能にするために, トランスフォーマーバックボンドオブジェクトエンコーダO-Encを含む条件エンコーダとして ConditionNet を提案する。第二に, HOINetは, 幾何認識型マルチヘッドクロスアテンションにより, ハイレベルハンド特徴と埋め込みオブジェクト特徴とを絡み合わせることで, ハンドオブジェクトインタラクション特徴を符号化するために導入された。実験による評価は, 現状の手法と比較して, 定性的かつ定量的に比較できることを示すものである。

関連論文リスト

Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。 EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文参考訳（メタデータ） (2025-10-23T06:07:07Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文参考訳（メタデータ） (2024-10-30T14:06:51Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文参考訳（メタデータ） (2024-04-02T09:18:52Z)
Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction [8.253265795150401]
本稿では,3Dにおける手-物間相互作用のシーケンスを生成するための最初のテキスト誘導作業について紹介する。接触生成のために、VAEベースのネットワークはテキストとオブジェクトメッシュを入力として、手の表面とオブジェクトとの間の接触の確率を生成する。運動生成のために、トランスフォーマーベースの拡散モデルは、この3Dコンタクトマップを、物理的に可塑性な手オブジェクトの動きを生成するための強力な先行手段として利用する。
論文参考訳（メタデータ） (2024-03-31T04:56:30Z)
NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of Hand-Object Interaction [19.957593804898064]
ビデオのスパース集合から手動物体間相互作用を再構成するための新しいフリーポイントレンダリングフレームワークであるニューラルコンタクトレーダランスフィールド(NCRF)を提案する。私たちはこれらの重要なコンポーネントを共同で学び、視覚的および幾何学的制約で相互に助け合い、規則化します。提案手法は、レンダリング品質とポーズ推定精度の両方の観点から、現在の最先端技術よりも優れています。
論文参考訳（メタデータ） (2024-02-08T10:09:12Z)
Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文参考訳（メタデータ） (2023-09-28T17:59:51Z)
Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-31T17:59:26Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
3D Object Detection on Point Clouds using Local Ground-aware and Adaptive Representation of scenes' surface [1.9336815376402714]
新規で適応的な地上認識と費用対効果の高い3次元物体検出パイプラインを提案する。 2段Lidar物体検出パイプラインにおける最先端3次元物体検出性能について提案する。
論文参考訳（メタデータ） (2020-02-02T05:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。