論文の概要: Language-guided Skill Learning with Temporal Variational Inference
- arxiv url: http://arxiv.org/abs/2402.16354v1
- Date: Mon, 26 Feb 2024 07:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:12:18.751481
- Title: Language-guided Skill Learning with Temporal Variational Inference
- Title(参考訳): 時変推論を用いた言語誘導スキル学習
- Authors: Haotian Fu, Pratyusha Sharma, Elias Stengel-Eskin, George Konidaris,
Nicolas Le Roux, Marc-Alexandre C\^ot\'e, Xingdi Yuan
- Abstract要約: 専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
- 参考スコア(独自算出の注目度): 40.27771585028291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for skill discovery from expert demonstrations. The
algorithm first utilizes Large Language Models (LLMs) to propose an initial
segmentation of the trajectories. Following that, a hierarchical variational
inference framework incorporates the LLM-generated segmentation information to
discover reusable skills by merging trajectory segments. To further control the
trade-off between compression and reusability, we introduce a novel auxiliary
objective based on the Minimum Description Length principle that helps guide
this skill discovery process. Our results demonstrate that agents equipped with
our method are able to discover skills that help accelerate learning and
outperform baseline skill learning approaches on new long-horizon tasks in
BabyAI, a grid world navigation environment, as well as ALFRED, a household
simulation environment.
- Abstract(参考訳): 専門家による実演からスキル発見を行うアルゴリズムを提案する。
このアルゴリズムは、まずLarge Language Models (LLM) を用いて、軌道の初期セグメンテーションを提案する。
その後、階層的変動推論フレームワークはLLM生成セグメンテーション情報を組み込んで、軌道セグメントをマージして再利用可能なスキルを発見する。
圧縮と再利用のトレードオフをさらにコントロールするために,このスキル発見プロセスを導くのに役立つ最小記述長原理に基づく新しい補助目的を提案する。
本研究では,本手法を応用したエージェントが,グリッドワールドナビゲーション環境であるBabyAIと家庭用シミュレーション環境であるALFREDにおいて,学習を加速し,ベースラインスキル学習アプローチを向上する技術を見出すことができた。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Subspace Distillation for Continual Learning [27.22147868163214]
本稿では,ニューラルネットワークの多様体構造を考慮した知識蒸留手法を提案する。
部分空間を用いたモデリングは、雑音に対するロバスト性など、いくつかの興味深い特性を提供することを示した。
実験により,提案手法は,いくつかの挑戦的データセットにおいて,様々な連続学習法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-31T05:59:09Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Reinforcement Learning for Variable Selection in a Branch and Bound
Algorithm [0.10499611180329801]
現実世界のインスタンスのパターンを活用して、与えられた問題に最適化された新しいブランチ戦略をスクラッチから学習します。
本稿では,この課題に特化して設計された新しい強化学習手法であるFMSTSを提案する。
論文 参考訳(メタデータ) (2020-05-20T13:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。