論文の概要: Deriving Rewards for Reinforcement Learning from Symbolic Behaviour
Descriptions of Bipedal Walking
- arxiv url: http://arxiv.org/abs/2312.10328v1
- Date: Sat, 16 Dec 2023 05:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:16:53.252674
- Title: Deriving Rewards for Reinforcement Learning from Symbolic Behaviour
Descriptions of Bipedal Walking
- Title(参考訳): 双足歩行の象徴的行動記述から強化学習への報酬の導出
- Authors: Daniel Harnack, Christoph L\"uth, Lukas Gross, Shivesh Kumar, Frank
Kirchner
- Abstract要約: 本稿では,シンボル記述から報酬関数を求める新しい手法を提案する。
システム動作はハイブリッドオートマトンとしてモデル化され、システムの状態空間を小さくし、より効率的な強化学習を可能にする。
この手法は二足歩行に適用され、歩行ロボットを状態空間のオーサント上でハイブリッドオートマトンとしてモデル化し、コンパスウォーカーを用いてハイブリッドオートマトンサイクルの後にインセンティブを与える報酬を導出する。
- 参考スコア(独自算出の注目度): 5.737287537823071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating physical movement behaviours from their symbolic description is a
long-standing challenge in artificial intelligence (AI) and robotics, requiring
insights into numerical optimization methods as well as into formalizations
from symbolic AI and reasoning. In this paper, a novel approach to finding a
reward function from a symbolic description is proposed. The intended system
behaviour is modelled as a hybrid automaton, which reduces the system state
space to allow more efficient reinforcement learning. The approach is applied
to bipedal walking, by modelling the walking robot as a hybrid automaton over
state space orthants, and used with the compass walker to derive a reward that
incentivizes following the hybrid automaton cycle. As a result, training times
of reinforcement learning controllers are reduced while final walking speed is
increased. The approach can serve as a blueprint how to generate reward
functions from symbolic AI and reasoning.
- Abstract(参考訳): 記号的記述から物理運動行動を生成することは、人工知能(AI)とロボット工学における長年にわたる課題であり、数値最適化手法や、記号的AIや推論からの形式化に関する洞察を必要とする。
本稿では,シンボル記述から報酬関数を求める新しい手法を提案する。
システム動作はハイブリッドオートマトンとしてモデル化され、システムの状態空間を小さくし、より効率的な強化学習を可能にする。
この手法は二足歩行に適用され、歩行ロボットを状態空間オーサント上のハイブリッドオートマトンとしてモデル化し、コンパスウォーカーを用いてハイブリッドオートマトンサイクルの後にインセンティブを与える報酬を導出する。
これにより、最終歩行速度を増加させながら強化学習コントローラの訓練時間を短縮する。
このアプローチは、象徴的なAIと推論から報酬関数を生成する方法の青写真として機能する。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Spiking based Cellular Learning Automata (SCLA) algorithm for mobile
robot motion formulation [0.0]
スパイキングに基づくセルラーラーニングオートマタは、任意のランダムな初期点から目標に到達するための移動ロボットとして提案されている。
提案手法は, セルラーオートマトンとスパイクニューラルネットワークを統合した結果である。
論文 参考訳(メタデータ) (2023-09-01T04:16:23Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Learning Time-optimized Path Tracking with or without Sensory Feedback [5.254093731341154]
本稿では,ロボットが関節空間で定義された基準経路を素早く追従できる学習型アプローチを提案する。
ロボットは、物理シミュレータで生成されたデータを用いて強化学習によって訓練されたニューラルネットワークによって制御される。
論文 参考訳(メタデータ) (2022-03-03T19:13:31Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。