論文の概要: Selective Perception: Optimizing State Descriptions with Reinforcement
Learning for Language Model Actors
- arxiv url: http://arxiv.org/abs/2307.11922v1
- Date: Fri, 21 Jul 2023 22:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:57:20.412093
- Title: Selective Perception: Optimizing State Descriptions with Reinforcement
Learning for Language Model Actors
- Title(参考訳): 選択知覚:言語モデルアクターの強化学習による状態記述の最適化
- Authors: Kolby Nottingham, Yasaman Razeghi, Kyungmin Kim, JB Lanier, Pierre
Baldi, Roy Fox, Sameer Singh
- Abstract要約: 大規模言語モデル(LLM)は、ロボット工学やゲームといった分野における逐次的な意思決定タスクのためにアクターとして応用されている。
これまでの研究は、LLMアクターが言語を介してどのような環境状態情報を提供するかを探ることはほとんどない。
簡潔な状態記述を自動的に選択するBLINDER(Bref Language Inputs for Decision-making Responses)を提案する。
- 参考スコア(独自算出の注目度): 40.18762220245365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being applied as actors for sequential
decision making tasks in domains such as robotics and games, utilizing their
general world knowledge and planning abilities. However, previous work does
little to explore what environment state information is provided to LLM actors
via language. Exhaustively describing high-dimensional states can impair
performance and raise inference costs for LLM actors. Previous LLM actors avoid
the issue by relying on hand-engineered, task-specific protocols to determine
which features to communicate about a state and which to leave out. In this
work, we propose Brief Language INputs for DEcision-making Responses (BLINDER),
a method for automatically selecting concise state descriptions by learning a
value function for task-conditioned state descriptions. We evaluate BLINDER on
the challenging video game NetHack and a robotic manipulation task. Our method
improves task success rate, reduces input size and compute costs, and
generalizes between LLM actors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ロボット工学やゲームなどの分野におけるシーケンシャルな意思決定タスクにアクターとして応用され、一般的な世界の知識と計画能力を活用している。
しかし、これまでの研究では、LLMアクターが言語を介してどのような環境状態情報を提供するかは明らかになっていない。
高次元状態を記述することは、LLMアクターの性能を損なう可能性がある。
以前のllmアクタは、ハンドエンジニアリングされたタスク固有のプロトコルを使用して、状態について通信する機能と、それを除外する機能を決定することで、この問題を回避する。
本研究では,タスク条件付き状態記述のための値関数を学習することにより,簡潔な状態記述を自動的に選択するBLINDERを提案する。
難易度の高いビデオゲームnethackとロボット操作タスクのブラインド評価を行った。
提案手法はタスク成功率を改善し,入力サイズと計算コストを削減し,LLMアクター間の一般化を行う。
関連論文リスト
- Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - LLMs for Robotic Object Disambiguation [21.101902684740796]
本研究は,LLMが複雑な意思決定課題の解決に適していることを明らかにする。
我々の研究の重要な焦点は、LLMのオブジェクトの曖昧化能力である。
我々は,LLMのあいまいなクエリを提示する能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。
論文 参考訳(メタデータ) (2024-01-07T04:46:23Z) - Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。
この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-19T20:39:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。