論文の概要: SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation
- arxiv url: http://arxiv.org/abs/2510.25268v1
- Date: Wed, 29 Oct 2025 08:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.282502
- Title: SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation
- Title(参考訳): SynHLMA:離散的物体相互作用表現を用いた人工物体の合成手話操作
- Authors: Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo,
- Abstract要約: 本稿では,新しいHAOIシーケンス生成フレームワークSynHLMAを提案する。
我々は、各手動オブジェクトの相互作用フレームをモデル化するために、個別のHAOI表現を使用する。
自然言語の埋め込みとともに、表現はHAOI操作言語モデルによって訓練される。
関節付き物体関節の動的変動に手つかみが追従されることを保証するために、関節認識損失を用いる。
- 参考スコア(独自算出の注目度): 20.50790587356819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating hand grasps with language instructions is a widely studied topic that benefits from embodied AI and VR/AR applications. While transferring into hand articulatied object interaction (HAOI), the hand grasps synthesis requires not only object functionality but also long-term manipulation sequence along the object deformation. This paper proposes a novel HAOI sequence generation framework SynHLMA, to synthesize hand language manipulation for articulated objects. Given a complete point cloud of an articulated object, we utilize a discrete HAOI representation to model each hand object interaction frame. Along with the natural language embeddings, the representations are trained by an HAOI manipulation language model to align the grasping process with its language description in a shared representation space. A joint-aware loss is employed to ensure hand grasps follow the dynamic variations of articulated object joints. In this way, our SynHLMA achieves three typical hand manipulation tasks for articulated objects of HAOI generation, HAOI prediction and HAOI interpolation. We evaluate SynHLMA on our built HAOI-lang dataset and experimental results demonstrate the superior hand grasp sequence generation performance comparing with state-of-the-art. We also show a robotics grasp application that enables dexterous grasps execution from imitation learning using the manipulation sequence provided by our SynHLMA. Our codes and datasets will be made publicly available.
- Abstract(参考訳): 言語命令によるハンドグリップの生成は、具体化されたAIとVR/ARアプリケーションの恩恵を受ける、広く研究されているトピックである。
手話による物体の相互作用(HAOI)に移行する際、手話合成は対象機能だけでなく、対象変形に沿った長期操作シーケンスも要求する。
本稿では,手話操作を合成する新しいHAOIシーケンス生成フレームワークSynHLMAを提案する。
音声オブジェクトの完全点雲が与えられた場合、各手動オブジェクトの相互作用フレームをモデル化するために、離散HAOI表現を用いる。
自然言語の埋め込みとともに、表現はHAOI操作言語モデルによって訓練され、その把握過程と言語記述を共有表現空間で整合させる。
関節付き物体関節の動的変動に手つかみが追従されることを保証するために、関節認識損失を用いる。
このようにして、我々のSynHLMAは、HAOI生成、HAOI予測、HAOI補間という3つの定型手操作タスクを達成する。
我々は、構築したHAOI-langデータセット上でSynHLMAを評価し、実験結果により、最先端技術と比較して、優れた手つかみシーケンス生成性能を示す。
また,SynHLMAによって提供される操作シーケンスを用いて,模倣学習からデクスタラスグリップの実行を可能にするロボットグリップアプリケーションについても紹介する。
コードとデータセットは公開されます。
関連論文リスト
- SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。
既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。
本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:10Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。