論文の概要: Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.17511v1
- Date: Tue, 27 Feb 2024 13:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:19:02.979840
- Title: Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning
- Title(参考訳): 模倣学習における言語条件付きスキル発見のための相互情報再考
- Authors: Zhaoxun Ju, Chao Yang, Hongbo Wang, Yu Qiao and Fuchun Sun
- Abstract要約: 我々はLanguage Conditioned Skill Discovery (LCSD)として知られるエンドツーエンドの模倣学習手法を提案する。
ベクトル量子化を利用して離散潜在スキルを学習し、軌跡のスキルシーケンスを活用して高レベルの意味的命令を再構築する。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
- 参考スコア(独自算出の注目度): 36.624923972563415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-conditioned robot behavior plays a vital role in executing complex
tasks by associating human commands or instructions with perception and
actions. The ability to compose long-horizon tasks based on unconstrained
language instructions necessitates the acquisition of a diverse set of
general-purpose skills. However, acquiring inherent primitive skills in a
coupled and long-horizon environment without external rewards or human
supervision presents significant challenges. In this paper, we evaluate the
relationship between skills and language instructions from a mathematical
perspective, employing two forms of mutual information within the framework of
language-conditioned policy learning. To maximize the mutual information
between language and skills in an unsupervised manner, we propose an end-to-end
imitation learning approach known as Language Conditioned Skill Discovery
(LCSD). Specifically, we utilize vector quantization to learn discrete latent
skills and leverage skill sequences of trajectories to reconstruct high-level
semantic instructions. Through extensive experiments on language-conditioned
robotic navigation and manipulation tasks, encompassing BabyAI, LORel, and
CALVIN, we demonstrate the superiority of our method over prior works. Our
approach exhibits enhanced generalization capabilities towards unseen tasks,
improved skill interpretability, and notably higher rates of task completion
success.
- Abstract(参考訳): 言語条件付きロボットの動作は、人間の命令や指示と知覚や動作を関連付けることで複雑なタスクを実行する上で重要な役割を果たす。
制約のない言語命令に基づいて長期タスクを構成する能力は、多種多様な汎用スキルの獲得を必要とする。
しかし,対外報酬や人的監督を伴わない連成・長期ホリゾン環境における本質的原始的スキルの獲得には大きな課題がある。
本稿では,言語条件付き政策学習の枠組みの中で,2種類の相互情報を用いた数学的観点から,スキルと言語指導の関係を評価する。
教師なしの方法で言語とスキルの相互情報を最大化するために,言語条件付きスキル発見(lcsd)と呼ばれるエンドツーエンドの模倣学習手法を提案する。
具体的には,ベクトル量子化を用いて離散潜在スキルを学習し,軌跡のスキルシーケンスを活用し,高レベル意味命令を再構成する。
BabyAI,LORel,CALVINを含む言語条件のロボットナビゲーションおよび操作タスクに関する広範な実験を通じて,本手法が先行研究よりも優れていることを示す。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
関連論文リスト
- Language Guided Skill Discovery [56.84356022198222]
言語ガイドスキル発見(LGSD)を導入し,スキル間の意味的多様性を最大化する。
LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。
本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。
論文 参考訳(メタデータ) (2024-06-07T04:25:38Z) - Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。