論文の概要: Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation
- arxiv url: http://arxiv.org/abs/2601.09031v1
- Date: Tue, 13 Jan 2026 23:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.196647
- Title: Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation
- Title(参考訳): ヒューマノイドロボットマニピュレーションのための一般化可能な幾何学的事前・反復スパイク特徴学習
- Authors: Xuetao Li, Wenke Huang, Mang Ye, Jifeng Xuan, Bo Du, Sheng Liu, Miao Li,
- Abstract要約: 本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
- 参考スコア(独自算出の注目度): 90.90219129619344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid robot manipulation is a crucial research area for executing diverse human-level tasks, involving high-level semantic reasoning and low-level action generation. However, precise scene understanding and sample-efficient learning from human demonstrations remain critical challenges, severely hindering the applicability and generalizability of existing frameworks. This paper presents a novel RGMP-S, Recurrent Geometric-prior Multimodal Policy with Spiking features, facilitating both high-level skill reasoning and data-efficient motion synthesis. To ground high-level reasoning in physical reality, we leverage lightweight 2D geometric inductive biases to enable precise 3D scene understanding within the vision-language model. Specifically, we construct a Long-horizon Geometric Prior Skill Selector that effectively aligns the semantic instructions with spatial constraints, ultimately achieving robust generalization in unseen environments. For the data efficiency issue in robotic action generation, we introduce a Recursive Adaptive Spiking Network. We parameterize robot-object interactions via recursive spiking for spatiotemporal consistency, fully distilling long-horizon dynamic features while mitigating the overfitting issue in sparse demonstration scenarios. Extensive experiments are conducted across the Maniskill simulation benchmark and three heterogeneous real-world robotic systems, encompassing a custom-developed humanoid, a desktop manipulator, and a commercial robotic platform. Empirical results substantiate the superiority of our method over state-of-the-art baselines and validate the efficacy of the proposed modules in diverse generalization scenarios. To facilitate reproducibility, the source code and video demonstrations are publicly available at https://github.com/xtli12/RGMP-S.git.
- Abstract(参考訳): ヒューマノイドロボット操作は、ハイレベルなセマンティック推論と低レベルなアクション生成を含む、多様な人間レベルのタスクを実行するための重要な研究領域である。
しかし、人間のデモンストレーションからの正確なシーン理解とサンプル効率の学習は依然として重要な課題であり、既存のフレームワークの適用性と一般化を著しく妨げている。
本稿では,RGMP-S(Recurrent Geometric-prior Multimodal Policy with Spiking feature)を提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを活用し、視覚言語モデル内での正確な3次元シーン理解を可能にする。
具体的には、意味的命令と空間的制約を効果的に整合させ、最終的に目に見えない環境で堅牢な一般化を実現する長軸幾何学的事前スキルセレクタを構築する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
本研究では,スパース実演シナリオにおける過度な問題を軽減するとともに,ロボットと物体の相互作用をパラメータ化し,時空間整合性を実現し,長期水平動特性を完全に蒸留する。
Maniskillシミュレーションベンチマークと、カスタム開発のヒューマノイド、デスクトップマニピュレータ、商用ロボットプラットフォームを含む3つの異種現実世界ロボットシステムで、広範囲にわたる実験が行われた。
実験により,本手法が最先端のベースラインよりも優れていることを実証し,多種多様な一般化シナリオにおいて提案したモジュールの有効性を検証する。
再現性を促進するため、ソースコードとビデオデモはhttps://github.com/xtli12/RGMP-S.gitで公開されている。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement [16.549660613125877]
GOPLAは、拡張された人間のデモンストレーションから一般化可能なオブジェクト配置を学ぶ階層的なフレームワークである。
データ不足を克服するため、私たちは、人間の配置デモを多様な合成トレーニングデータに拡張するスケーラブルなパイプラインを導入しました。
提案手法は, 位置決め精度と身体的妥当性を指標として, ランナアップよりも30.04ポイントの配置成功率を向上する。
論文 参考訳(メタデータ) (2025-10-16T12:38:14Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - HACMan++: Spatially-Grounded Motion Primitives for Manipulation [28.411361363637006]
本稿では,HACMan++における空間的パラメータ化動作プリミティブについて紹介する。
環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。
提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-07-11T15:10:14Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。