論文の概要: Braxlines: Fast and Interactive Toolkit for RL-driven Behavior
Engineering beyond Reward Maximization
- arxiv url: http://arxiv.org/abs/2110.04686v1
- Date: Sun, 10 Oct 2021 02:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 18:48:58.420319
- Title: Braxlines: Fast and Interactive Toolkit for RL-driven Behavior
Engineering beyond Reward Maximization
- Title(参考訳): Braxlines: RL駆動行動工学のための高速かつインタラクティブなツールキット
- Authors: Shixiang Shane Gu, Manfred Diaz, Daniel C. Freeman, Hiroki Furuta,
Seyed Kamyar Seyed Ghasemipour, Anton Raichuk, Byron David, Erik Frey, Erwin
Coumans, Olivier Bachem
- Abstract要約: 強化学習(RL)によるアプローチでは、継続的な制御の目標は、望ましい振る舞いを合成することである。
本稿では,単純な報酬RLを超える高速かつインタラクティブな行動生成ツールキットであるbraxlinesを紹介する。
我々の実装は、JaxのハードウェアアクセラレーションであるBraxシミュレータ上に構築されており、最小限の修正を施し、トレーニングの数分以内に動作を可能にする。
- 参考スコア(独自算出の注目度): 15.215372246434413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of continuous control is to synthesize desired behaviors. In
reinforcement learning (RL)-driven approaches, this is often accomplished
through careful task reward engineering for efficient exploration and running
an off-the-shelf RL algorithm. While reward maximization is at the core of RL,
reward engineering is not the only -- sometimes nor the easiest -- way for
specifying complex behaviors. In this paper, we introduce \braxlines, a toolkit
for fast and interactive RL-driven behavior generation beyond simple reward
maximization that includes Composer, a programmatic API for generating
continuous control environments, and set of stable and well-tested baselines
for two families of algorithms -- mutual information maximization (MiMax) and
divergence minimization (DMin) -- supporting unsupervised skill learning and
distribution sketching as other modes of behavior specification. In addition,
we discuss how to standardize metrics for evaluating these algorithms, which
can no longer rely on simple reward maximization. Our implementations build on
a hardware-accelerated Brax simulator in Jax with minimal modifications,
enabling behavior synthesis within minutes of training. We hope Braxlines can
serve as an interactive toolkit for rapid creation and testing of environments
and behaviors, empowering explosions of future benchmark designs and new modes
of RL-driven behavior generation and their algorithmic research.
- Abstract(参考訳): 継続的制御の目標は、望ましい行動を合成することである。
強化学習(RL)によるアプローチでは、効率的な探索と既製のRLアルゴリズムの実行のために、注意深いタスク報酬エンジニアリングによって実現されることが多い。
報酬の最大化はRLの中核にあるが、報酬工学が複雑な振る舞いを特定する唯一の方法ではない。
本稿では,相互情報最大化 (MiMax) と分散最小化 (DMin) の2種類のアルゴリズムの安定かつ十分にテストされたベースラインのセットであるComposerを含む,単純な報酬の最大化を超えて,高速かつインタラクティブなRL駆動行動生成ツールキットである \braxlinesを紹介し,非教師なしのスキル学習と分散スケッチを他の行動仕様のモードとしてサポートする。
さらに,単純な報酬最大化に頼らず,これらのアルゴリズムを評価するためのメトリクスの標準化について論じる。
私たちの実装はjaxのハードウェアアクセラレーションされたbraxシミュレータ上に構築されています。
Braxlinesは、環境と行動の迅速な作成とテスト、将来のベンチマーク設計の爆発とRL駆動行動生成の新しいモードの強化、アルゴリズム研究のためのインタラクティブツールキットとして機能することを願っている。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。
提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。
また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文 参考訳(メタデータ) (2023-05-25T22:13:37Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。