論文の概要: Intentionally-underestimated Value Function at Terminal State for
Temporal-difference Learning with Mis-designed Reward
- arxiv url: http://arxiv.org/abs/2308.12772v1
- Date: Thu, 24 Aug 2023 13:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:56:45.673846
- Title: Intentionally-underestimated Value Function at Terminal State for
Temporal-difference Learning with Mis-designed Reward
- Title(参考訳): 時相微分学習の端末状態における故意に過小評価された値関数
- Authors: Taisuke Kobayashi
- Abstract要約: 本研究は、時間差学習(TD)がそのような終了時に果たす最も一般的な例外処理の問題に対処する。
タスクの失敗によりエピソードが終了すると、失敗は意図しない過大評価によって高く評価される。
本稿では,学習失敗を避けるために,終了後の価値を意図的に過小評価する手法を提案する。
- 参考スコア(独自算出の注目度): 6.20048328543366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot control using reinforcement learning has become popular, but its
learning process generally terminates halfway through an episode for safety and
time-saving reasons. This study addresses the problem of the most popular
exception handling that temporal-difference (TD) learning performs at such
termination. That is, by forcibly assuming zero value after termination,
unintentionally implicit underestimation or overestimation occurs, depending on
the reward design in the normal states. When the episode is terminated due to
task failure, the failure may be highly valued with the unintentional
overestimation, and the wrong policy may be acquired. Although this problem can
be avoided by paying attention to the reward design, it is essential in
practical use of TD learning to review the exception handling at termination.
This paper therefore proposes a method to intentionally underestimate the value
after termination to avoid learning failures due to the unintentional
overestimation. In addition, the degree of underestimation is adjusted
according to the degree of stationarity at termination, thereby preventing
excessive exploration due to the intentional underestimation. Simulations and
real robot experiments showed that the proposed method can stably obtain the
optimal policies for various tasks and reward designs.
https://youtu.be/AxXr8uFOe7M
- Abstract(参考訳): 強化学習を用いたロボット制御が普及しているが、その学習プロセスは一般的に安全と時間の節約のためにエピソード中途半端に終わる。
本研究は、時間差学習(TD)がそのような終了時に果たす最も一般的な例外処理の問題に対処する。
すなわち、終了後のゼロ値を強制的に仮定することで、通常の状態の報酬設計によって意図しない暗黙の過小評価や過大評価が発生する。
タスクの失敗によりエピソードが終了すると、意図しない過大評価で障害を高く評価し、誤ったポリシーを取得することができる。
この問題は報酬設計に注意を払わなくても回避できるが、td学習では終了時に例外処理をレビューすることが不可欠である。
そこで本稿では,意図しない過大評価による学習失敗を避けるために,終了後の値を意図的に過小評価する手法を提案する。
また、終了時の定常度に応じて過小評価の度合いを調整し、故意の過小評価による過度な探索を防止する。
シミュレーションと実ロボット実験により,提案手法は様々な課題や報奨設計の最適方針を安定的に得ることができた。
https://youtu.be/AxXr8uFOe7M
関連論文リスト
- Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。
IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。
IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文 参考訳(メタデータ) (2025-02-11T13:34:09Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景および前景バイアスプロトコル上で評価し,新しい最先端技術を設定し,HMDB51上で12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文 参考訳(メタデータ) (2024-06-22T06:43:51Z) - Demystifying the Recency Heuristic in Temporal-Difference Learning [24.072317774998606]
強化学習の相対性は、獲得した報酬に間に合った刺激を強く強化すべきである、という仮定である。
本稿では,TD学習における電流の応用に関する数学的意味を分析する。
以上の結果から,信頼度に基づく信用割当が学習を促進するという,最初の理論的証拠が得られた。
論文 参考訳(メタデータ) (2024-06-18T05:23:29Z) - Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - Learning to Schedule Online Tasks with Bandit Feedback [7.671139712158846]
オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
論文 参考訳(メタデータ) (2024-02-26T10:11:28Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Clinical Risk Prediction with Temporal Probabilistic Asymmetric
Multi-Task Learning [80.66108902283388]
マルチタスク学習手法は、臨床リスク予測などの安全クリティカルな応用に注意を払って使用すべきである。
既存の非対称なマルチタスク学習手法は、低損失のタスクから高損失のタスクへの知識伝達を行うことにより、この負の伝達問題に対処する。
特徴レベルの不確実性に基づいて,特定のタスク/タイムステップから関連する不確実なタスクへの知識伝達を行う,新しい時間的非対称型マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2020-06-23T06:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。