論文の概要: LEMON: Language-Based Environment Manipulation via Execution-Guided
Pre-training
- arxiv url: http://arxiv.org/abs/2201.08081v1
- Date: Thu, 20 Jan 2022 09:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:53:53.997006
- Title: LEMON: Language-Based Environment Manipulation via Execution-Guided
Pre-training
- Title(参考訳): LEMON: 実行ガイドによる事前学習による言語ベースの環境操作
- Authors: Qi Shi, Qian Liu, Bei Chen, Yu Zhang, Ting Liu, Jian-Guang Lou
- Abstract要約: 言語ベースの環境操作タスクのための一般的なフレームワークであるLEMONを提案する。
まず、同じ生成言語モデルを用いて、様々な環境に対処するための統一的なアプローチを提案する。
そこで本研究では,環境の事前知識を言語モデルに注入するための,実行指導型事前学習戦略を提案する。
- 参考スコア(独自算出の注目度): 37.24914113447777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language-based environment manipulation requires agents to manipulate the
environment following natural language instructions, which is challenging due
to the huge space of the environments. To address this challenge, various
approaches have been proposed in recent work. Although these approaches work
well for their intended environments, they are difficult to generalize across
environments. In this work, we propose LEMON, a general framework for
language-based environment manipulation tasks. Specifically, we first propose a
unified approach to deal with various environments using the same generative
language model. Then we propose an execution-guided pre-training strategy to
inject prior knowledge of environments to the language model with a pure
synthetic pre-training corpus. Experimental results on tasks including Alchemy,
Scene, Tangrams and ProPara demonstrate the effectiveness of LEMON: it achieves
new state-of-the-art results on Alchemy, Scene and ProPara, and the
execution-guided pre-training strategy brings remarkable improvements on all
experimental tasks.
- Abstract(参考訳): 言語に基づく環境操作では,エージェントが自然言語の指示に従って環境を操作する必要がある。
この課題に対処するために、近年様々なアプローチが提案されている。
これらのアプローチは、意図した環境でもうまく機能するが、環境をまたいで一般化することは困難である。
本研究では,言語に基づく環境操作タスクの汎用フレームワークLEMONを提案する。
具体的には、まず、同じ生成言語モデルを用いて様々な環境に対処するための統一的なアプローチを提案する。
そこで本研究では,環境の事前知識を言語モデルに注入する実行誘導事前学習戦略を提案する。
alchemy, scene, tangrams, proparaなどのタスクの実験結果は、lemonの有効性を実証している: alchemy, scene, proparaの新たな最先端結果を達成し、実行ガイドによる事前トレーニング戦略は、すべての実験タスクにおいて顕著な改善をもたらす。
関連論文リスト
- LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-07-30T15:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。