論文の概要: Collaborating with language models for embodied reasoning
- arxiv url: http://arxiv.org/abs/2302.00763v1
- Date: Wed, 1 Feb 2023 21:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 16:07:22.632635
- Title: Collaborating with language models for embodied reasoning
- Title(参考訳): 具体的推論のための言語モデルとのコラボレーション
- Authors: Ishita Dasgupta, Christine Kaeser-Chen, Kenneth Marino, Arun Ahuja,
Sheila Babayan, Felix Hill, Rob Fergus
- Abstract要約: 複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
- 参考スコア(独自算出の注目度): 30.82976922056617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning in a complex and ambiguous environment is a key goal for
Reinforcement Learning (RL) agents. While some sophisticated RL agents can
successfully solve difficult tasks, they require a large amount of training
data and often struggle to generalize to new unseen environments and new tasks.
On the other hand, Large Scale Language Models (LSLMs) have exhibited strong
reasoning ability and the ability to to adapt to new tasks through in-context
learning. However, LSLMs do not inherently have the ability to interrogate or
intervene on the environment. In this work, we investigate how to combine these
complementary abilities in a single system consisting of three parts: a
Planner, an Actor, and a Reporter. The Planner is a pre-trained language model
that can issue commands to a simple embodied agent (the Actor), while the
Reporter communicates with the Planner to inform its next command. We present a
set of tasks that require reasoning, test this system's ability to generalize
zero-shot and investigate failure cases, and demonstrate how components of this
system can be trained with reinforcement-learning to improve performance.
- Abstract(参考訳): 複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
いくつかの高度なrlエージェントは難しいタスクをうまく解決できるが、大量のトレーニングデータを必要とし、しばしば新しい目に見えない環境や新しいタスクへの一般化に苦労する。
一方で、大規模言語モデル(lslms)は、コンテキスト内学習を通じて、強力な推論能力と新しいタスクへの適応能力を示している。
しかし、LSLMは本来、環境に対して尋問や介入を行う能力を持っていない。
本研究では,プランナー,アクター,レポーターの3つの部分からなる単一システムにおいて,これらの補完能力をどのように組み合わせるかを検討する。
plannerは事前学習された言語モデルで、単純な具体化エージェント(アクター)にコマンドを発行し、リポーターはプランナーと通信して次のコマンドを知らせる。
本稿では,ゼロショットを一般化し,故障事例を調査するシステムの能力を検証し,性能向上のために強化学習を用いてシステムのコンポーネントをどのように訓練するかを示す。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。