論文の概要: Interpretable Policy Specification and Synthesis through Natural
Language and RL
- arxiv url: http://arxiv.org/abs/2101.07140v1
- Date: Mon, 18 Jan 2021 16:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:08:51.355558
- Title: Interpretable Policy Specification and Synthesis through Natural
Language and RL
- Title(参考訳): 自然言語とRLによる解釈可能な政策仕様と合成
- Authors: Pradyumna Tambwekar, Andrew Silva, Nakul Gopalan, Matthew Gombolay
- Abstract要約: 現在の政策仕様の最先端の手法はブラックボックスモデルに依存している。
本稿では,人間が自然言語で解釈可能な方針を指定できる新しい機械学習フレームワークを提案する。
我々は,本フレームワークが自然言語を96%,97%の精度で決定木に変換することを示した。
- 参考スコア(独自算出の注目度): 4.393856456045986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy specification is a process by which a human can initialize a robot's
behaviour and, in turn, warm-start policy optimization via Reinforcement
Learning (RL). While policy specification/design is inherently a collaborative
process, modern methods based on Learning from Demonstration or Deep RL lack
the model interpretability and accessibility to be classified as such. Current
state-of-the-art methods for policy specification rely on black-box models,
which are an insufficient means of collaboration for non-expert users: These
models provide no means of inspecting policies learnt by the agent and are not
focused on creating a usable modality for teaching robot behaviour. In this
paper, we propose a novel machine learning framework that enables humans to 1)
specify, through natural language, interpretable policies in the form of
easy-to-understand decision trees, 2) leverage these policies to warm-start
reinforcement learning and 3) outperform baselines that lack our natural
language initialization mechanism. We train our approach by collecting a
first-of-its-kind corpus mapping free-form natural language policy descriptions
to decision tree-based policies. We show that our novel framework translates
natural language to decision trees with a 96% and 97% accuracy on a held-out
corpus across two domains, respectively. Finally, we validate that policies
initialized with natural language commands are able to significantly outperform
relevant baselines (p < 0.001) that do not benefit from our natural
language-based warm-start technique.
- Abstract(参考訳): ポリシー仕様は、人間がロボットの動作を初期化して、強化学習(Reinforcement Learning, RL)を通して温かい開始ポリシーを最適化するプロセスである。
ポリシーの仕様/設計は本質的に協調的なプロセスであるが、デモや深いrlからの学習に基づくモダンな手法は、モデル解釈性とアクセシビリティを欠いている。
これらのモデルは、エージェントが学習したポリシーを検査する手段を提供しておらず、ロボットの振る舞いを教えるために使用可能なモダリティの作成に重点を置いていません。
本稿では,1)自然言語を通じて,理解しやすい決定木という形で解釈可能なポリシーを規定し,2)これらのポリシーをウォームスタート強化学習に活用し,3)自然言語初期化機構を欠いたベースラインよりも優れる,新たな機械学習フレームワークを提案する。
我々は,木をベースとした政策決定に,自由形式の自然言語ポリシー記述をマッピングすることで,アプローチを訓練する。
本稿では,2つの領域にまたがる保留コーパスにおいて,自然言語を96%,97%の精度で決定木に翻訳する手法を提案する。
最後に、自然言語コマンドで初期化されるポリシーが、自然言語ベースのウォームスタートテクニックの恩恵を受けない関連するベースライン(p < 0.001)を大幅に上回ることができることを検証します。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text [12.88819706338837]
近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
論文 参考訳(メタデータ) (2020-05-19T12:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。