論文の概要: Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills
- arxiv url: http://arxiv.org/abs/2402.03244v2
- Date: Sat, 22 Jun 2024 18:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:11:02.826258
- Title: Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills
- Title(参考訳): スキルセット最適化:トランスファー可能なスキルによる言語モデル行動の強化
- Authors: Kolby Nottingham, Bodhisattwa Prasad Majumder, Bhavana Dalvi Mishra, Sameer Singh, Peter Clark, Roy Fox,
- Abstract要約: 大規模言語モデル(LLM)は、インタラクティブ環境でのシーケンシャルな意思決定に最近使用されている。
トランスファー可能なスキルセットの構築と精細化を通じて,LLMアクターのパフォーマンスを向上させるためのスキルセット最適化(SSO)を提案する。
我々は,従来のビデオゲームNetHackとテキスト環境ScienceWorldで,SSOのスキルセットを最適化し,コンテキスト内ポリシーの改善を行う能力を実証するために,本手法を評価した。
- 参考スコア(独自算出の注目度): 40.823689847227975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently been used for sequential decision making in interactive environments. However, leveraging environment reward signals for continual LLM actor improvement is not straightforward. We propose Skill Set Optimization (SSO) for improving LLM actor performance through constructing and refining sets of transferable skills. SSO constructs skills by extracting common subtrajectories with high rewards and generating subgoals and instructions to represent each skill. These skills are provided to the LLM actor in-context to reinforce behaviors with high rewards. Then, SSO further refines the skill set by pruning skills that do not continue to result in high rewards. We evaluate our method in the classic videogame NetHack and the text environment ScienceWorld to demonstrate SSO's ability to optimize a set of skills and perform in-context policy improvement. SSO outperforms baselines by 40% in our custom NetHack task and outperforms the previous state-of-the-art in ScienceWorld by 35%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インタラクティブ環境でのシーケンシャルな意思決定に最近使用されている。
しかし,環境報酬信号の連続的LLMアクター改善への活用は容易ではない。
トランスファー可能なスキルセットの構築と精細化を通じて,LLMアクターのパフォーマンスを向上させるためのスキルセット最適化(SSO)を提案する。
SSOは、報酬の高い共通のサブトラジェクトリを抽出し、各スキルを表すサブゴールと命令を生成することで、スキルを構築する。
これらのスキルは、高い報酬で行動を強化するために、LLMアクターにコンテキストで提供される。
そして、SSOは、高い報酬を得られない技術を切り刻むことによって設定されたスキルをさらに洗練する。
我々は,従来のビデオゲームNetHackとテキスト環境ScienceWorldで,SSOのスキルセットを最適化し,コンテキスト内ポリシーの改善を行う能力を実証するために,本手法を評価した。
SSOは当社のカスタムNetHackタスクのベースラインを40%上回り、ScienceWorldの最先端を35%上回ります。
関連論文リスト
- Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning [14.62474759939562]
Skill-aware Mutual Information (SaMI) は,スキルに応じたコンテキスト埋め込みの識別を支援する最適化目的である。
そこで我々は,SaMIの目的を最適化するための$K$sample推定器であるSkill-aware Noise Contrastive Estimation (SaNCE)を提案する。
SMIを最大化することで学習するRLエージェントが、目に見えないタスクに対して、ゼロショットの一般化を大幅に改善できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-07T10:35:29Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Eureka: Human-Level Reward Design via Coding Large Language Models [121.91007140014982]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。
LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提案する。
Eurekaは、最先端のLLMの目覚ましいゼロショット生成、コード書き、コンテキスト内改善機能を利用する。
論文 参考訳(メタデータ) (2023-10-19T17:31:01Z) - Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T02:43:47Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。