論文の概要: HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation
- arxiv url: http://arxiv.org/abs/2602.18817v1
- Date: Sat, 21 Feb 2026 12:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.332158
- Title: HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation
- Title(参考訳): HeRO:Pose-Aware Object Manipulationのための階層型3Dセマンティック表現
- Authors: Chongyang Xu, Shen Cheng, Haipeng Li, Haoqiang Fan, Ziliang Feng, Shuaicheng Liu,
- Abstract要約: HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
- 参考スコア(独自算出の注目度): 54.325346533275074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning for robotic manipulation has progressed from 2D image policies to 3D representations that explicitly encode geometry. Yet purely geometric policies often lack explicit part-level semantics, which are critical for pose-aware manipulation (e.g., distinguishing a shoe's toe from heel). In this paper, we present HeRO, a diffusion-based policy that couples geometry and semantics via hierarchical semantic fields. HeRO employs dense semantics lifting to fuse discriminative, geometry-sensitive features from DINOv2 with the smooth, globally coherent correspondences from Stable Diffusion, yielding dense features that are both fine-grained and spatially consistent. These features are processed and partitioned to construct a global field and a set of local fields. A hierarchical conditioning module conditions the generative denoiser on global and local fields using permutation-invariant network architecture, thereby avoiding order-sensitive bias and producing a coherent control policy for pose-aware manipulation. In various tests, HeRO establishes a new state-of-the-art, improving success on Place Dual Shoes by 12.3% and averaging 6.5% gains across six challenging pose-aware tasks. Code is available at https://github.com/Chongyang-99/HeRO.
- Abstract(参考訳): ロボット操作のための模倣学習は、2D画像ポリシーから、幾何学を明示的にエンコードする3D表現へと進歩してきた。
しかし、純粋に幾何学的なポリシーは、しばしば明示的な部分レベルの意味論を欠くことが多く、これはポーズを意識した操作(例えば靴のつま先とかかとを区別する)に不可欠である。
本稿では,階層的意味論を通して幾何学と意味論を結合する拡散型ポリシーであるHeROを提案する。
HeROはDINOv2の識別的・幾何学的な特徴と安定拡散のスムーズでグローバルなコヒーレントな対応を融合するために高密度なセマンティクスを持ち上げ、細粒度と空間的整合性の両方の高密度な特徴を生み出す。
これらの機能は、グローバルフィールドとローカルフィールドのセットを構築するために処理およびパーティショニングされる。
階層的条件付けモジュールは、置換不変なネットワークアーキテクチャを用いて、大域的および局所的な生成的デノイザを条件付けすることにより、順序感受性バイアスを回避し、ポーズ認識操作のためのコヒーレント制御ポリシを生成する。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
コードはhttps://github.com/Chongyang-99/HeROで公開されている。
関連論文リスト
- Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。