論文の概要: Offline Discovery of Interpretable Skills from Multi-Task Trajectories
- arxiv url: http://arxiv.org/abs/2602.01018v1
- Date: Sun, 01 Feb 2026 05:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.532507
- Title: Offline Discovery of Interpretable Skills from Multi-Task Trajectories
- Title(参考訳): マルチタスク軌道から解釈可能なスキルのオフライン発見
- Authors: Chongyu Zhu, Mithun Vanniasinghe, Jiayu Chen, Chi-Guhn Lee,
- Abstract要約: オフラインスキル発見と階層的模倣のための3段階のエンドツーエンド学習フレームワークであるLOKIを紹介する。
LOKIは、挑戦的なD4RL Kitchenベンチマークで高い成功率を獲得し、標準のHILベースラインを上回っている。
- 参考スコア(独自算出の注目度): 8.119611773942562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Imitation Learning is a powerful paradigm for acquiring complex robot behaviors from demonstrations. A central challenge, however, lies in discovering reusable skills from long-horizon, multi-task offline data, especially when the data lacks explicit rewards or subtask annotations. In this work, we introduce LOKI, a three-stage end-to-end learning framework designed for offline skill discovery and hierarchical imitation. The framework commences with a two-stage, weakly supervised skill discovery process: Stage one performs coarse, task-aware macro-segmentation by employing an alignment-enforced Vector Quantized VAE guided by weak task labels. Stage two then refines these segments at a micro-level using a self-supervised sequential model, followed by an iterative clustering process to consolidate skill boundaries. The third stage then leverages these precise boundaries to construct a hierarchical policy within an option-based framework-complete with a learned termination condition beta for explicit skill switching. LOKI achieves high success rates on the challenging D4RL Kitchen benchmark and outperforms standard HIL baselines. Furthermore, we demonstrate that the discovered skills are semantically meaningful, aligning with human intuition, and exhibit compositionality by successfully sequencing them to solve a novel, unseen task.
- Abstract(参考訳): 階層的模倣学習(Hierarchical Imitation Learning)は、デモから複雑なロボット行動を取得するための強力なパラダイムである。
しかし、特にデータが明示的な報酬やサブタスクアノテーションを欠いている場合、長期的なマルチタスクオフラインデータから再利用可能なスキルを見つけることが、重要な課題である。
本研究では,オフラインスキル発見と階層的模倣を目的とした3段階のエンドツーエンド学習フレームワークであるLOKIを紹介する。
第1段階は、弱いタスクラベルでガイドされたアライメント強化ベクター量子化VAEを使用することで、粗大でタスク対応のマクロセグメンテーションを実行する。
次にステージ2は、自己組織化されたシーケンシャルモデルを使用して、これらのセグメントをマイクロレベルで洗練し、続いて、スキルバウンダリを集約するための反復的なクラスタリングプロセスを実行する。
第3のステージは、これらの正確な境界を利用して、明確なスキルスイッチングのための学習終了条件ベータを備えたオプションベースのフレームワーク完備な階層的なポリシーを構築する。
LOKIは、挑戦的なD4RL Kitchenベンチマークで高い成功率を獲得し、標準のHILベースラインを上回っている。
さらに,発見したスキルは意味論的に意味があり,人間の直感と整合し,新規で目に見えない課題を解くためにそれらをシークエンスすることで構成性を示すことを示した。
関連論文リスト
- Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning [19.2269680366874]
エンボディドインテリジェンスのためのこれまでの継続的な学習設定は、人間の命令に基づく低レベルのアクションの実行に焦点を当てていた。
エージェントの連続学習プロセスを高レベル命令と低レベル動作の2つの層に分割する階層型エンボディード連続学習機構(HEC)を提案する。
本稿では, インクリメンタル LoRA Experts (Task-aware MoILE) 法について紹介する。
論文 参考訳(メタデータ) (2025-06-05T03:20:47Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Variational Offline Multi-agent Skill Discovery [47.924414207796005]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。
StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning [18.496765732728164]
マルチタスク協調方式において,画像レベルの監視を活用して検出能力を向上する新しいフレームワークCLISを提案する。
CLISは、テールカテゴリーを10.1ポイント改善した31.1のAPを達成し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2022-10-11T16:02:14Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Adversarial Continual Learning [99.56738010842301]
本稿では,タスク不変およびタスク特化機能に対する不整合表現を学習するハイブリッド連続学習フレームワークを提案する。
本モデルでは,タスク固有のスキルの忘れを防止するためにアーキテクチャの成長と,共有スキルを維持するための経験的リプレイアプローチを組み合わせる。
論文 参考訳(メタデータ) (2020-03-21T02:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。