論文の概要: Collaborating with language models for embodied reasoning
- arxiv url: http://arxiv.org/abs/2302.00763v1
- Date: Wed, 1 Feb 2023 21:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 16:07:22.632635
- Title: Collaborating with language models for embodied reasoning
- Title(参考訳): 具体的推論のための言語モデルとのコラボレーション
- Authors: Ishita Dasgupta, Christine Kaeser-Chen, Kenneth Marino, Arun Ahuja,
Sheila Babayan, Felix Hill, Rob Fergus
- Abstract要約: 複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
- 参考スコア(独自算出の注目度): 30.82976922056617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning in a complex and ambiguous environment is a key goal for
Reinforcement Learning (RL) agents. While some sophisticated RL agents can
successfully solve difficult tasks, they require a large amount of training
data and often struggle to generalize to new unseen environments and new tasks.
On the other hand, Large Scale Language Models (LSLMs) have exhibited strong
reasoning ability and the ability to to adapt to new tasks through in-context
learning. However, LSLMs do not inherently have the ability to interrogate or
intervene on the environment. In this work, we investigate how to combine these
complementary abilities in a single system consisting of three parts: a
Planner, an Actor, and a Reporter. The Planner is a pre-trained language model
that can issue commands to a simple embodied agent (the Actor), while the
Reporter communicates with the Planner to inform its next command. We present a
set of tasks that require reasoning, test this system's ability to generalize
zero-shot and investigate failure cases, and demonstrate how components of this
system can be trained with reinforcement-learning to improve performance.
- Abstract(参考訳): 複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
いくつかの高度なrlエージェントは難しいタスクをうまく解決できるが、大量のトレーニングデータを必要とし、しばしば新しい目に見えない環境や新しいタスクへの一般化に苦労する。
一方で、大規模言語モデル(lslms)は、コンテキスト内学習を通じて、強力な推論能力と新しいタスクへの適応能力を示している。
しかし、LSLMは本来、環境に対して尋問や介入を行う能力を持っていない。
本研究では,プランナー,アクター,レポーターの3つの部分からなる単一システムにおいて,これらの補完能力をどのように組み合わせるかを検討する。
plannerは事前学習された言語モデルで、単純な具体化エージェント(アクター)にコマンドを発行し、リポーターはプランナーと通信して次のコマンドを知らせる。
本稿では,ゼロショットを一般化し,故障事例を調査するシステムの能力を検証し,性能向上のために強化学習を用いてシステムのコンポーネントをどのように訓練するかを示す。
関連論文リスト
- LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Models as Generalizable Policies for Embodied Tasks [52.563115105077564]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Language Models can Solve Computer Tasks [13.914130729517584]
学習済みの大規模言語モデル(LLM)エージェントは,簡単なプロンプトスキームを用いて自然言語で指導されたコンピュータタスクを実行できることを示す。
複数のLLMを比較し,InstructGPT-3+RLHF LLMがMiniWoB++の最先端であることを示す。
論文 参考訳(メタデータ) (2023-03-30T16:01:52Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。