論文の概要: Policy Gradient Reinforcement Learning for Policy Represented by Fuzzy
Rules: Application to Simulations of Speed Control of an Automobile
- arxiv url: http://arxiv.org/abs/2009.02083v1
- Date: Fri, 4 Sep 2020 09:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:58:48.415294
- Title: Policy Gradient Reinforcement Learning for Policy Represented by Fuzzy
Rules: Application to Simulations of Speed Control of an Automobile
- Title(参考訳): ファジィルールに代表されるポリシーに対するポリシー勾配強化学習:自動車の速度制御シミュレーションへの応用
- Authors: Seiji Ishihara and Harukazu Igarashi
- Abstract要約: 本稿ではファジィ推論とポリシー強化学習の融合手法を提案する。
提案手法は,出力値の時系列における望ましくない変動を抑制する効果を有する。
また,報酬関数の違いが学習結果に悪影響を及ぼす可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A method of a fusion of fuzzy inference and policy gradient reinforcement
learning has been proposed that directly learns, as maximizes the expected
value of the reward per episode, parameters in a policy function represented by
fuzzy rules with weights. A study has applied this method to a task of speed
control of an automobile and has obtained correct policies, some of which
control speed of the automobile appropriately but many others generate
inappropriate vibration of speed. In general, the policy is not desirable that
causes sudden time change or vibration in the output value, and there would be
many cases where the policy giving smooth time change in the output value is
desirable. In this paper, we propose a fusion method using the objective
function, that introduces defuzzification with the center of gravity model
weighted stochastically and a constraint term for smoothness of time change, as
an improvement measure in order to suppress sudden change of the output value
of the fuzzy controller. Then we show the learning rule in the fusion, and also
consider the effect by reward functions on the fluctuation of the output value.
As experimental results of an application of our method on speed control of an
automobile, it was confirmed that the proposed method has the effect of
suppressing the undesirable fluctuation in time-series of the output value.
Moreover, it was also showed that the difference between reward functions might
adversely affect the results of learning.
- Abstract(参考訳): ファジィ推論とポリシー勾配強化学習を融合させる手法が提案され、各エピソード当たりの報酬の期待値が最大になるように、重み付きファジィ規則で表されるポリシー関数のパラメータを直接学習する。
本手法を自動車の速度制御の課題に適用し, 自動車の速度を適切に制御するものもあれば, 速度の不適切な振動を発生させるものもいくつかある。
一般に、出力値に突然の時間変化や振動を引き起こすような方針は望ましいものではなく、出力値にスムーズな時間変化を与える方針が望ましい場合が多い。
本稿では, ファジィコントローラの出力値の急激な変化を抑制するために, 重み付き重み付き重み付き重み付き重み付き重み付き重み付き重み付きデファジフィケーションと, 時間変化のスムーズさを制約項として導入する目的関数を用いた融合法を提案する。
次に, 融合における学習則を示し, 報酬関数が出力値のゆらぎに与える影響について考察する。
本手法を自動車の速度制御に適用した実験結果から,提案手法は出力値の時系列における望ましくない変動を抑制する効果があることが確認された。
また,報酬関数の違いが学習結果に悪影響を及ぼす可能性が示唆された。
関連論文リスト
- Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation [31.534668378308822]
一貫性ポリシ(Consistency Policy)は、バイスモータロボット制御の学習のための拡散ポリシの高速かつ類似した代替手段である。
高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。
このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。
論文 参考訳(メタデータ) (2024-05-13T06:53:42Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Neural-to-Tree Policy Distillation with Policy Improvement Criterion [28.262400646275793]
ブラックボックスモデルに対する洞察を得るための可能な方法は、決定木のような解釈可能なモデルにそれを蒸留することである。
モデル動作を小さなエラーでもクローンする典型的なポリシー蒸留は、データ分散シフトをもたらす可能性がある。
本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化に転換することで, この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-08-16T05:14:54Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Automatic Exploration Process Adjustment for Safe Reinforcement Learning
with Joint Chance Constraint Satisfaction [2.127049691404299]
安全強化学習アルゴリズムのための探索過程の自動調整手法を提案する。
提案手法では,探索入力が,その状態とその予測値に応じて毎回使用されるか否かを自動的に選択する。
提案手法は, 予め特定された確率, すなわち, 毎回共同確率制約の満足度と制約の満足度を理論的に保証する。
論文 参考訳(メタデータ) (2021-03-05T13:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。