論文の概要: Natural Language Specification of Reinforcement Learning Policies
through Differentiable Decision Trees
- arxiv url: http://arxiv.org/abs/2101.07140v4
- Date: Sat, 20 May 2023 21:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:53:47.678842
- Title: Natural Language Specification of Reinforcement Learning Policies
through Differentiable Decision Trees
- Title(参考訳): 微分可能決定木による強化学習方針の自然言語仕様
- Authors: Pradyumna Tambwekar, Andrew Silva, Nakul Gopalan, Matthew Gombolay
- Abstract要約: 人間-AIポリシー仕様は、人間がロボットの強化学習ポリシーを協調的に温めるための、我々が定義した新しい手順である。
我々は,自律エージェントの行動の初期化と解釈を可能にする,新しい協調フレームワークを開発した。
提案手法は,ドメイン探索コストを増大させることなく,未経験の自然言語仕様を利用することで,RLエージェントをウォームスタートさせる。
- 参考スコア(独自算出の注目度): 10.406631494442683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-AI policy specification is a novel procedure we define in which humans
can collaboratively warm-start a robot's reinforcement learning policy. This
procedure is comprised of two steps; (1) Policy Specification, i.e. humans
specifying the behavior they would like their companion robot to accomplish,
and (2) Policy Optimization, i.e. the robot applying reinforcement learning to
improve the initial policy. Existing approaches to enabling collaborative
policy specification are often unintelligible black-box methods, and are not
catered towards making the autonomous system accessible to a novice end-user.
In this paper, we develop a novel collaborative framework to allow humans to
initialize and interpret an autonomous agent's behavior. Through our framework,
we enable humans to specify an initial behavior model via unstructured, natural
language (NL), which we convert to lexical decision trees. Next, we leverage
these translated specifications, to warm-start reinforcement learning and allow
the agent to further optimize these potentially suboptimal policies. Our
approach warm-starts an RL agent by utilizing non-expert natural language
specifications without incurring the additional domain exploration costs. We
validate our approach by showing that our model is able to produce >80%
translation accuracy, and that policies initialized by a human can match the
performance of relevant RL baselines in two domains.
- Abstract(参考訳): 人間-AIポリシー仕様は、人間がロボットの強化学習ポリシーを協調的にウォームスタートさせる新しい手順である。
この手順は、(1)ポリシー仕様、すなわち、そのロボットが達成したい行動を特定する人間、(2)ポリシー最適化、すなわち、強化学習を適用して初期方針を改善するロボットの2つのステップから構成されている。
コラボレーティブなポリシー仕様を実現する既存のアプローチは、しばしば知性に欠けるブラックボックスメソッドであり、初心者のエンドユーザーに自律的なシステムをアクセス可能にするためのものではない。
本稿では,自律エージェントの行動の初期化と解釈を可能にする新しい協調フレームワークを開発した。
本フレームワークにより,非構造化自然言語(NL)による初期行動モデルの設定が可能となり,語彙決定木に変換される。
次に、これらの翻訳された仕様を活用し、強化学習を温め、エージェントがこれらの潜在的最適条件をさらに最適化できるようにする。
このアプローチは、追加のドメイン探索コストを伴わずに、非専門家自然言語仕様を利用してrlエージェントを暖かく開始する。
我々は,本モデルが80%以上の翻訳精度が得られること,および人間によって初期化されたポリシーが,関連するRLベースラインの性能を2つの領域で一致させることができることを示した。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text [12.88819706338837]
近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
論文 参考訳(メタデータ) (2020-05-19T12:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。