論文の概要: Weber-Fechner Law in Temporal Difference learning derived from Control as Inference
- arxiv url: http://arxiv.org/abs/2412.21004v1
- Date: Mon, 30 Dec 2024 15:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:10.625901
- Title: Weber-Fechner Law in Temporal Difference learning derived from Control as Inference
- Title(参考訳): 制御を推論とする時間差学習におけるWeber-Fechner法則
- Authors: Keiichiro Takahashi, Taisuke Kobayashi, Tomoya Yamanokuchi, Takamitsu Matsubara,
- Abstract要約: 強化学習(RL)における時間差(TD)誤差に基づく新しい非線形更新規則について検討する。
一方、最近の生物学的研究により、TDエラーには非線形性、更新度、偏見、楽観的あるいは悲観的な政策が存在することが明らかになった。
本研究では,更新度とTD誤差の非線形性を利用する理論的枠組みについて検討する。
- 参考スコア(独自算出の注目度): 10.710674792832354
- License:
- Abstract: This paper investigates a novel nonlinear update rule based on temporal difference (TD) errors in reinforcement learning (RL). The update rule in the standard RL states that the TD error is linearly proportional to the degree of updates, treating all rewards equally without no bias. On the other hand, the recent biological studies revealed that there are nonlinearities in the TD error and the degree of updates, biasing policies optimistic or pessimistic. Such biases in learning due to nonlinearities are expected to be useful and intentionally leftover features in biological learning. Therefore, this research explores a theoretical framework that can leverage the nonlinearity between the degree of the update and TD errors. To this end, we focus on a control as inference framework, since it is known as a generalized formulation encompassing various RL and optimal control methods. In particular, we investigate the uncomputable nonlinear term needed to be approximately excluded in the derivation of the standard RL from control as inference. By analyzing it, Weber-Fechner law (WFL) is found, namely, perception (a.k.a. the degree of updates) in response to stimulus change (a.k.a. TD error) is attenuated by increase in the stimulus intensity (a.k.a. the value function). To numerically reveal the utilities of WFL on RL, we then propose a practical implementation using a reward-punishment framework and modifying the definition of optimality. Analysis of this implementation reveals that two utilities can be expected i) to increase rewards to a certain level early, and ii) to sufficiently suppress punishment. We finally investigate and discuss the expected utilities through simulations and robot experiments. As a result, the proposed RL algorithm with WFL shows the expected utilities that accelerate the reward-maximizing startup and continue to suppress punishments during learning.
- Abstract(参考訳): 本稿では、強化学習(RL)における時間差(TD)誤差に基づく新しい非線形更新規則について検討する。
標準RLの更新ルールでは、TDエラーは更新度に線形に比例し、すべての報酬をバイアスなく平等に扱う。
一方、最近の生物学的研究により、TDエラーには非線形性、更新度、偏見、楽観的あるいは悲観的な政策が存在することが明らかになった。
非線形性による学習のバイアスは、生物学的学習において有用であり、故意に残った特徴であると考えられている。
そこで本研究では,更新度とTD誤差の非線形性を利用する理論的枠組みについて検討する。
この目的のために、様々なRLおよび最適制御法を含む一般化された定式化として知られているため、推論フレームワークとしての制御に焦点をあてる。
特に、標準RLの導出において、計算不能な非線形項を推論として制御からほぼ除外する必要性について検討する。
これを分析することにより、刺激強度の増加(すなわち値関数)により、刺激変化(すなわちTD誤差)に対する知覚(すなわち、更新の度合い)が減衰されることがWeber-Fechner法則(WFL)として見出される。
RL上でのWFLの有用性を数値的に明らかにするために,報奨金フレームワークを用いた実用的実装を提案し,最適性の定義を変更する。
この実装の分析により、2つのユーティリティが期待できることが明らかになった
一 報酬を早期に一定の水準に引き上げること
二 処罰を十分に抑えること。
シミュレーションやロボット実験を通じて,期待されるユーティリティについて検討し,議論する。
その結果、WFLを用いたRLアルゴリズムは、報奨最大化スタートアップを加速し、学習中の刑罰の抑制を継続する期待されるユーティリティを示す。
関連論文リスト
- Automatic debiasing of neural networks via moment-constrained learning [0.0]
偏差推定器の回帰関数をネーティブに学習し,対象関数のサンプル平均値を取得する。
本稿では,自動脱バイアスの欠点に対処する新しいRR学習手法として,モーメント制約学習を提案する。
論文 参考訳(メタデータ) (2024-09-29T20:56:54Z) - Exclusively Penalized Q-learning for Offline Reinforcement Learning [4.916646834691489]
制約に基づくオフライン強化学習(RL)は、分散シフトに起因する過大評価誤差を軽減するために、ポリシー制約や値関数に対する罰則を課す。
本稿では、ペナル化値関数を持つ既存のオフラインRL法における制限に着目し、値関数に導入される不要なバイアスによる過小評価バイアスの可能性を示す。
本稿では,推定誤差を誘導し易い状態を選択的にペナライズすることで,値関数における推定バイアスを低減する排他的罰則Q-ラーニング(EPQ)を提案する。
論文 参考訳(メタデータ) (2024-05-23T01:06:05Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - On Double Descent in Reinforcement Learning with LSTD and Random
Features [1.5873758872998507]
時間差分法(TD)アルゴリズムは深層強化学習(RL)において広く用いられている
ネットワークサイズと$l$-regularizationが性能に与える影響を理論的に分析する。
本研究では,2重降下現象,すなわちパラメータ/状態比の急激な低下を観察する。
論文 参考訳(メタデータ) (2023-10-09T08:33:22Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。