論文の概要: HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions
- arxiv url: http://arxiv.org/abs/2605.10201v2
- Date: Tue, 12 May 2026 07:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 15:25:41.417087
- Title: HeteroGenManip: Generalizable Manipulation For Heterogeneous Object Interactions
- Title(参考訳): HeteroGenManip: 異種オブジェクトインタラクションのための一般化可能な操作
- Authors: Zhenhao Shen, Zeming Yang, Yue Chen, Yuran Wang, Shengqiang Xu, Mingleyang Li, Hao Dong, Ruihai Wu,
- Abstract要約: クロスタイプオブジェクトインタラクションを含む一般化可能な操作は、ロボティクスにおいて決定的だが難しい能力である。
既存の基盤モデルに基づくアプローチは、しばしば、これらのステージの区別を曖昧にするエンドツーエンドの学習を採用する。
We propose HeteroGenManip, a task-conditioned, two-stage framework designed to deouple initial grasp from complex interaction execution。
- 参考スコア(独自算出の注目度): 23.788389187142446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizable manipulation involving cross-type object interactions is a critical yet challenging capability in robotics. To reliably accomplish such tasks, robots must address two fundamental challenges: "where to manipulate" (contact point localization) and "how to manipulate" (subsequent interaction trajectory planning). Existing foundation-model-based approaches often adopt end-to-end learning that obscures the distinction between these stages, exacerbating error accumulation in long-horizon tasks. Furthermore, they typically rely on a single uniform model, which fails to capture the diverse, category-specific features required for heterogeneous objects. To overcome these limitations, we propose HeteroGenManip, a task-conditioned, two-stage framework designed to decouple initial grasp from complex interaction execution. First, Foundation-Correspondence-Guided Grasp module leverages structural priors to align the initial contact state, thereby significantly reducing the pose uncertainty of grasping. Subsequently, Multi-Foundation-Model Diffusion Policy (MFMDP) routes objects to category-specialized foundation models, integrating fine-grained geometric information with highly-variable part features via a dual-stream cross-attention mechanism. Experimental evaluations demonstrate that HeteroGenManip achieves robust intra-category shape and pose generalization. The framework achieves an average 31% performance improvement in simulation tasks with broad type setting, alongside a 36.7% gain across four real-world tasks with different interaction types.
- Abstract(参考訳): クロスタイプオブジェクトインタラクションを含む一般化可能な操作は、ロボティクスにおいて決定的だが難しい能力である。
そのようなタスクを確実に達成するには、ロボットは「どこで操作するか」(接触点の局所化)と「どう操作するか」(その後の相互作用軌道計画)という2つの基本的な課題に対処する必要がある。
既存の基礎モデルに基づくアプローチでは、これらのステージの区別を曖昧にし、長い水平タスクにおけるエラーの蓄積を悪化させるエンド・ツー・エンドの学習を採用することが多い。
さらに、それらは典型的には単一の一様モデルに依存しており、異種オブジェクトに必要な多種多様なカテゴリ固有の特徴を捉えることに失敗する。
これらの制限を克服するために,複雑なインタラクション実行から初期的把握を分離するタスク条件付き2段階フレームワークであるHeteroGenManipを提案する。
第一に、Foundation-Cor correspondingence-Guided Graspモジュールは、初期接触状態を整列するために構造上の先行情報を利用するため、把握のポーズの不確実性を著しく低減する。
その後、MFMDP(Multi-Foundation-Model Diffusion Policy)は、オブジェクトをカテゴリ特化基礎モデルにルーティングし、細粒度幾何情報と高可変部分特徴を二重ストリームのクロスアテンション機構を介して統合する。
実験により、HeteroGenManipは頑健なカテゴリ内形状を実現し、一般化することを示した。
このフレームワークは、広範囲な型設定を持つシミュレーションタスクで平均31%のパフォーマンス向上を実現し、対話タイプが異なる4つの実世界のタスクで36.7%のアップを達成している。
関連論文リスト
- Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing [20.40288070674112]
エンドツーエンドインタラクション対応トランス(InterFormer)を提案する。
DQG(Dynamic Query Generator)、DFS(Dual-context Feature Selector)、CoCo(Conditional Co-occurrence)の3つの重要なコンポーネントを統合している。
提案モデルでは,EgoHOSの最先端性能と,非配布のミニHOI4Dデータセットの課題を両立させる。
論文 参考訳(メタデータ) (2026-02-24T06:39:18Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding [18.52792284421002]
アーティキュレートされたオブジェクトは、さまざまな操作課題をロボットにもたらす。
内部構造は直接観測できないため、ロボットは操作軌道を生成するために適応的に動作を探索し、洗練する必要がある。
AdaRPGは、基礎モデルを利用してオブジェクトを抽出する新しいフレームワークで、オブジェクト全体よりも局所的な幾何学的類似性を示す。
論文 参考訳(メタデータ) (2025-07-24T10:25:58Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Modeling Instance Interactions for Joint Information Extraction with
Neural High-Order Conditional Random Field [39.055053720433435]
我々は、高次条件ランダムフィールドとして、共同IEを定式化する共同IEフレームワーク(CRFIE)を導入する。
具体的には,2つの要素と3つの要素を設計し,一対のインスタンスだけでなく三重項間の相互作用を直接モデル化する。
平均場変動推定法から展開した高次ニューラルデコーダを組み込んだ。
論文 参考訳(メタデータ) (2022-12-17T18:45:23Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。