論文の概要: A Composable Specification Language for Reinforcement Learning Tasks
- arxiv url: http://arxiv.org/abs/2008.09293v2
- Date: Thu, 29 Oct 2020 15:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 20:43:41.446601
- Title: A Composable Specification Language for Reinforcement Learning Tasks
- Title(参考訳): 強化学習タスクのための構成可能仕様言語
- Authors: Kishor Jothimurugan, Rajeev Alur and Osbert Bastani
- Abstract要約: 本稿では,複雑な制御タスクを特定するための言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。
我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.08652058034537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a promising approach for learning control policies
for robot tasks. However, specifying complex tasks (e.g., with multiple
objectives and safety constraints) can be challenging, since the user must
design a reward function that encodes the entire task. Furthermore, the user
often needs to manually shape the reward to ensure convergence of the learning
algorithm. We propose a language for specifying complex control tasks, along
with an algorithm that compiles specifications in our language into a reward
function and automatically performs reward shaping. We implement our approach
in a tool called SPECTRL, and show that it outperforms several state-of-the-art
baselines.
- Abstract(参考訳): 強化学習はロボットタスクの制御方針を学ぶための有望なアプローチである。
しかし、ユーザーがタスク全体をエンコードする報酬関数を設計する必要があるため、複雑なタスク(例えば、複数の目的と安全性の制約)を特定するのは困難である。
さらに、ユーザは学習アルゴリズムの収束を確実にするために、報酬を手作業で形作る必要があります。
本稿では,複雑な制御タスクを指定する言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。
我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。
関連論文リスト
- CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models [19.73329768987112]
CurricuLLMは複雑なロボット制御タスクのためのカリキュラム学習ツールである。
自然言語形式のタスク学習を支援するサブタスクを生成する。
また、サブタスクの自然言語記述を実行可能なコードに変換する。
CurricuLLMは複雑なロボット制御タスクの学習を支援する。
論文 参考訳(メタデータ) (2024-09-27T01:48:16Z) - Counting Reward Automata: Sample Efficient Reinforcement Learning
Through the Exploitation of Reward Function Structure [13.231546105751015]
本稿では,形式言語として表現可能な任意の報酬関数をモデル化可能な有限状態機械変種であるカウント・リワード・オートマトンを提案する。
このような抽象機械を組み込んだエージェントが,現在の手法よりも大きなタスクの集合を解くことができることを実証する。
論文 参考訳(メタデータ) (2023-12-18T17:20:38Z) - Interactive Task Planning with Language Models [97.86399877812923]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、多くの場合、重いプロンプトエンジニアリングやドメイン固有の事前訓練されたモデルを必要とする。
本稿では,言語モデルを用いた対話型タスクプランニングを実現するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - LARG, Language-based Automatic Reward and Goal Generation [8.404316955848602]
テキストベースのタスク記述をそれに対応する報酬とゴール生成関数に変換するアプローチを開発する。
ロボット操作に対する我々のアプローチを評価し、スケーラブルな方法でポリシーを訓練および実行できることを実証する。
論文 参考訳(メタデータ) (2023-06-19T14:52:39Z) - Automaton-Guided Curriculum Generation for Reinforcement Learning Agents [14.20447398253189]
Automaton-Guided Curriculum Learning (AGCL) は、DAG(Directed Acyclic Graphs)の形式で、対象タスクのためのカリキュラムを自動生成する新しい方法である。
AGCL は決定論的有限オートマトン (DFA) の形式で仕様を符号化し、DFA とオブジェクト指向 MDP 表現を使ってカリキュラムを DAG として生成する。
グリッドワールドと物理に基づくシミュレーションロボティクス領域の実験では、AGCLが生み出すカリキュラムが時間と閾値のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2023-04-11T15:14:31Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。