Fugu-MT 論文翻訳(概要): KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

論文の概要: KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

arxiv url: http://arxiv.org/abs/2408.02912v2
Date: Thu, 8 Aug 2024 07:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 12:41:05.296207
Title: KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance
Title（参考訳）: KOI: ハイブリッドキーステートガイダンスによるオンライン模倣学習の高速化
Authors: Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li,
Abstract要約: 鍵状態ガイド型オンライン模倣(KOI)学習手法について紹介する。我々は、タスク認識報酬推定のためのガイダンスとして、セマンティック・キー状態とモーション・キー状態の統合を利用する。実験の結果,メタワールド環境とLIBERO環境において,本手法がより効率的であることが確認された。
参考スコア（独自算出の注目度）: 51.09834120088799
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online Imitation Learning methods struggle with the gap between extensive online exploration space and limited expert trajectories, which hinder efficient exploration due to inaccurate task-aware reward estimation. Inspired by the findings from cognitive neuroscience that task decomposition could facilitate cognitive processing for efficient learning, we hypothesize that an agent could estimate precise task-aware imitation rewards for efficient online exploration by decomposing the target task into the objectives of "what to do" and the mechanisms of "how to do". In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning approach, which leverages the integration of semantic and motion key states as guidance for task-aware reward estimation. Initially, we utilize the visual-language models to segment the expert trajectory into semantic key states, indicating the objectives of "what to do". Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the process of "how to do". By integrating a thorough grasp of both semantic and motion key states, we refine the trajectory-matching reward computation, encouraging task-aware exploration for efficient online imitation learning. Our experiment results prove that our method is more sample efficient in the Meta-World and LIBERO environments. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method.
Abstract（参考訳）: オンライン・イミテーション・ラーニング手法は、広範囲のオンライン探索空間と限られた専門家軌道とのギャップに苦慮し、不正確なタスク認識報酬推定のために効率的な探索を妨げている。課題分解が効率的な学習のための認知処理を促進するという認知神経科学の知見に触発されて,ターゲットタスクを「すべきこと」の目的と「すべきこと」のメカニズムに分解することで,エージェントが効率的なオンライン探索のための正確なタスク認識模倣報酬を推定できるのではないか,という仮説を立てた。本研究では,タスク認識型報酬推定のためのガイダンスとして,意味と動きのキー状態の統合を活用するハイブリッドなキーステートガイド型オンライン模倣(KOI)学習手法を提案する。まず、視覚言語モデルを用いて、専門家の軌跡を意味的なキー状態に分割し、「何をすべきか」の目的を示す。セマンティックキー状態間の間隔内では、動作キー状態のキャプチャに光学的フローが使用され、「どのように行うか」のプロセスが理解される。セマンティックキー状態と動作キー状態の両方を徹底的に把握することにより、軌道整合報酬計算を洗練し、効率的なオンライン模倣学習のためのタスク認識探索を奨励する。実験の結果,メタワールド環境とLIBERO環境において,本手法がより効率的であることが確認された。また,本手法の有効性を検証するために実世界のロボット操作実験を行い,本手法の有効性を実証した。

関連論文リスト

On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression [19.01804572722833]
実世界のシーケンシャルな意思決定タスクでは、観察された状態-行動軌跡から学ぶことは、模倣、分類、クラスタリングのようなタスクには不可欠である。本稿では,動的意思決定プロセスにおけるスキルと能力の獲得を目的とした,状態行動軌跡を潜在空間に埋め込む新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-16T06:52:58Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Tactile Active Inference Reinforcement Learning for Efficient Robotic Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-11-19T10:19:22Z)
Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文参考訳（メタデータ） (2022-05-20T20:30:57Z)
Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文参考訳（メタデータ） (2022-04-25T17:58:19Z)
Unsupervised Online Learning for Robotic Interestingness with Visual Memory [9.189959184116962]
そこで本研究では,オンライン環境に自動的に適応して,興味深いシーンを素早く報告する手法を開発した。地下トンネル環境における最先端の非監視手法よりも平均20%高い精度を実現する。
論文参考訳（メタデータ） (2021-11-18T16:51:39Z)
TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文参考訳（メタデータ） (2021-10-27T21:05:00Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。