論文の概要: Interpretable Policy Specification and Synthesis through Natural
Language and RL
- arxiv url: http://arxiv.org/abs/2101.07140v1
- Date: Mon, 18 Jan 2021 16:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:08:51.355558
- Title: Interpretable Policy Specification and Synthesis through Natural
Language and RL
- Title(参考訳): 自然言語とRLによる解釈可能な政策仕様と合成
- Authors: Pradyumna Tambwekar, Andrew Silva, Nakul Gopalan, Matthew Gombolay
- Abstract要約: 現在の政策仕様の最先端の手法はブラックボックスモデルに依存している。
本稿では,人間が自然言語で解釈可能な方針を指定できる新しい機械学習フレームワークを提案する。
我々は,本フレームワークが自然言語を96%,97%の精度で決定木に変換することを示した。
- 参考スコア(独自算出の注目度): 4.393856456045986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy specification is a process by which a human can initialize a robot's
behaviour and, in turn, warm-start policy optimization via Reinforcement
Learning (RL). While policy specification/design is inherently a collaborative
process, modern methods based on Learning from Demonstration or Deep RL lack
the model interpretability and accessibility to be classified as such. Current
state-of-the-art methods for policy specification rely on black-box models,
which are an insufficient means of collaboration for non-expert users: These
models provide no means of inspecting policies learnt by the agent and are not
focused on creating a usable modality for teaching robot behaviour. In this
paper, we propose a novel machine learning framework that enables humans to 1)
specify, through natural language, interpretable policies in the form of
easy-to-understand decision trees, 2) leverage these policies to warm-start
reinforcement learning and 3) outperform baselines that lack our natural
language initialization mechanism. We train our approach by collecting a
first-of-its-kind corpus mapping free-form natural language policy descriptions
to decision tree-based policies. We show that our novel framework translates
natural language to decision trees with a 96% and 97% accuracy on a held-out
corpus across two domains, respectively. Finally, we validate that policies
initialized with natural language commands are able to significantly outperform
relevant baselines (p < 0.001) that do not benefit from our natural
language-based warm-start technique.
- Abstract(参考訳): ポリシー仕様は、人間がロボットの動作を初期化して、強化学習(Reinforcement Learning, RL)を通して温かい開始ポリシーを最適化するプロセスである。
ポリシーの仕様/設計は本質的に協調的なプロセスであるが、デモや深いrlからの学習に基づくモダンな手法は、モデル解釈性とアクセシビリティを欠いている。
これらのモデルは、エージェントが学習したポリシーを検査する手段を提供しておらず、ロボットの振る舞いを教えるために使用可能なモダリティの作成に重点を置いていません。
本稿では,1)自然言語を通じて,理解しやすい決定木という形で解釈可能なポリシーを規定し,2)これらのポリシーをウォームスタート強化学習に活用し,3)自然言語初期化機構を欠いたベースラインよりも優れる,新たな機械学習フレームワークを提案する。
我々は,木をベースとした政策決定に,自由形式の自然言語ポリシー記述をマッピングすることで,アプローチを訓練する。
本稿では,2つの領域にまたがる保留コーパスにおいて,自然言語を96%,97%の精度で決定木に翻訳する手法を提案する。
最後に、自然言語コマンドで初期化されるポリシーが、自然言語ベースのウォームスタートテクニックの恩恵を受けない関連するベースライン(p < 0.001)を大幅に上回ることができることを検証します。
関連論文リスト
- Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Autoencoding Language Model Based Ensemble Learning for Commonsense
Validation and Explanation [1.503974529275767]
本稿では,コモンセンス検証と説明のための自動符号化言語モデルに基づくアンサンブル学習手法を提案する。
提案手法は,コモンセンスに反する自然言語文(検証サブタスク)を識別し,コモンセンスに反する理由(説明選択サブタスク)を正しく識別する。
SemEval-2020 Task 4のベンチマークデータセットによる実験結果から,本手法が最先端モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-04-07T09:43:51Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。