論文の概要: Generalizable Hierarchical Skill Learning via Object-Centric Representation
- arxiv url: http://arxiv.org/abs/2510.21121v1
- Date: Fri, 24 Oct 2025 03:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.374014
- Title: Generalizable Hierarchical Skill Learning via Object-Centric Representation
- Title(参考訳): オブジェクト中心表現による一般化可能な階層型スキル学習
- Authors: Haibo Zhao, Yu Qi, Boce Hu, Yizhe Zhu, Ziyan Chen, Heng Tian, Xupeng Zhu, Owen Howell, Haojie Huang, Robin Walters, Dian Wang, Robert Platt,
- Abstract要約: Generalizable Hierarchical Skill Learning (GSL)は階層的な政策学習のための新しいフレームワークである。
GSLは、基礎モデルを使用して、デモを転送可能およびオブジェクト標準化されたスキルプリミティブに分解する。
シミュレーションでは、GSLはタスク毎の3つのデモでトレーニングされ、30倍のデータでトレーニングされたベースラインが15.5%向上した。
- 参考スコア(独自算出の注目度): 26.10113233184106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Generalizable Hierarchical Skill Learning (GSL), a novel framework for hierarchical policy learning that significantly improves policy generalization and sample efficiency in robot manipulation. One core idea of GSL is to use object-centric skills as an interface that bridges the high-level vision-language model and the low-level visual-motor policy. Specifically, GSL decomposes demonstrations into transferable and object-canonicalized skill primitives using foundation models, ensuring efficient low-level skill learning in the object frame. At test time, the skill-object pairs predicted by the high-level agent are fed to the low-level module, where the inferred canonical actions are mapped back to the world frame for execution. This structured yet flexible design leads to substantial improvements in sample efficiency and generalization of our method across unseen spatial arrangements, object appearances, and task compositions. In simulation, GSL trained with only 3 demonstrations per task outperforms baselines trained with 30 times more data by 15.5 percent on unseen tasks. In real-world experiments, GSL also surpasses the baseline trained with 10 times more data.
- Abstract(参考訳): 本稿では,ロボット操作における政策一般化とサンプル効率を大幅に向上させる,階層型政策学習のための新しいフレームワークであるGeneralizable Hierarchical Skill Learning (GSL)を提案する。
GSLの中核となる考え方は、高レベルな視覚言語モデルと低レベルな視覚モーターポリシーを橋渡しするインターフェースとして、オブジェクト中心のスキルを使用することである。
具体的には、GSLは、基礎モデルを使用して、転送可能およびオブジェクト標準化されたスキルプリミティブにデモを分解し、オブジェクトフレームにおける効率的な低レベルのスキル学習を保証する。
テスト時には、ハイレベルエージェントによって予測されるスキルオブジェクト対を低レベルモジュールに供給し、推論された標準動作を世界フレームにマッピングして実行させる。
この構造的かつフレキシブルな設計により、サンプル効率が大幅に向上し、空間配置、オブジェクトの外観、タスク構成にまたがる手法が一般化される。
シミュレーションでは、GSLはタスク毎の3つのデモでトレーニングされ、30倍のデータでトレーニングされたベースラインが15.5%向上した。
実世界の実験では、GSLは10倍以上のデータでトレーニングされたベースラインを超えている。
関連論文リスト
- Rethinking Graph Structure Learning in the Era of LLMs [37.348487195600384]
Large Language and Tree Assistant (LLaTA)は、木に基づくLLMインコンテキスト学習を活用し、トポロジーとテキストの理解を強化する。
11のデータセットに対する大規模な実験は、LLaTAが任意のバックボーンを組み込んだ柔軟性を享受していることを示している。
論文 参考訳(メタデータ) (2025-03-27T07:28:30Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-01-28T13:26:47Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Learning Primitive-aware Discriminative Representations for Few-shot
Learning [28.17404445820028]
少ないショットラーニングは、いくつかのラベル付き例で、新しいクラスを容易に認識できる分類器を学習することを目的としている。
プリミティブ・マイニング・アンド・リ共振ネットワーク(PMRN)を提案し,プリミティブ・アウェアな表現を学習する。
提案手法は,6つの標準ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-08-20T16:22:22Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。