論文の概要: KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance
- arxiv url: http://arxiv.org/abs/2408.02912v3
- Date: Thu, 17 Oct 2024 03:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:44:50.414822
- Title: KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance
- Title(参考訳): KOI: ハイブリッドキーステートガイダンスによるオンライン模倣学習の高速化
- Authors: Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li,
- Abstract要約: キーステートガイド付きオンライン模倣(KOI)学習手法について紹介する。
我々は視覚言語モデルを用いて、専門家の軌跡から意味的キー状態を抽出し、「何をすべきか」の目的を示す。
セマンティックキー状態間の間隔内では、動作キー状態の捕捉に光流が使用され、「どうするか」のメカニズムが理解される。
- 参考スコア(独自算出の注目度): 51.09834120088799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Imitation Learning struggles with the gap between extensive online exploration space and limited expert trajectories, hindering efficient exploration due to inaccurate reward estimation. Inspired by the findings from cognitive neuroscience, we hypothesize that an agent could estimate precise task-aware reward for efficient online exploration, through decomposing the target task into the objectives of "what to do" and the mechanisms of "how to do". In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning method, which leverages the integration of semantic and motion key states as guidance for reward estimation. Initially, we utilize visual-language models to extract semantic key states from expert trajectory, indicating the objectives of "what to do". Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the mechanisms of "how to do". By integrating a thorough grasp of hybrid key states, we refine the trajectory-matching reward computation, accelerating online imitation learning with task-aware exploration. We evaluate not only the success rate of the tasks in the Meta-World and LIBERO environments, but also the trend of variance during online imitation learning, proving that our method is more sample efficient. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method. Videos and code are available at https://gewu-lab.github.io/Keystate_Online_Imitation/.
- Abstract(参考訳): オンライン・イミテーション・ラーニングは、広範囲のオンライン探索空間と限られた専門家の軌道とのギャップに苦慮し、不正確な報酬推定のために効率的な探索を妨げる。
認知神経科学の知見に触発されて、ターゲットタスクを「何をすべきか」の目的と「何をすべきか」のメカニズムに分解することで、エージェントが効率的なオンライン探索のための正確なタスク認識報酬を推定できるという仮説を立てた。
そこで本研究では,報酬推定のためのガイダンスとして,意味と動きのキー状態の統合を活用するハイブリッドなキーステートガイド型オンライン模倣学習手法を提案する。
当初、私たちは視覚言語モデルを用いて、専門家の軌跡から意味的キー状態を抽出し、「何をすべきか」の目的を示す。
セマンティックキー状態間の間隔内では、動作キー状態のキャプチャに光の流れを使用し、"どのように行うか"のメカニズムを理解する。
ハイブリッドキー状態の網羅的把握を統合することで、軌道整合報酬計算を洗練し、タスク認識探索によるオンライン模倣学習を加速する。
メタワールドおよびLIBERO環境におけるタスクの成功率だけでなく、オンライン模倣学習における分散傾向も評価し、本手法がより標本効率が高いことを示す。
また,本手法の有効性を検証するために実世界のロボット操作実験を行い,本手法の有効性を実証した。
ビデオとコードはhttps://gewu-lab.github.io/Keystate_Online_Imitation/.comで公開されている。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Unsupervised Online Learning for Robotic Interestingness with Visual
Memory [9.189959184116962]
そこで本研究では,オンライン環境に自動的に適応して,興味深いシーンを素早く報告する手法を開発した。
地下トンネル環境における最先端の非監視手法よりも平均20%高い精度を実現する。
論文 参考訳(メタデータ) (2021-11-18T16:51:39Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。