論文の概要: Simultaneously Updating All Persistence Values in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.11620v1
- Date: Mon, 21 Nov 2022 16:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:01:54.798597
- Title: Simultaneously Updating All Persistence Values in Reinforcement Learning
- Title(参考訳): 強化学習における持続性値の同時更新
- Authors: Luca Sabbioni, Luca Al Daire, Lorenzo Bisi, Alberto Maria Metelli and
Marcello Restelli
- Abstract要約: 強化学習では、学習エージェントの性能は時間的離散化の選択に敏感である。
本研究は,低パーシステンス体験と高パーシステンス体験の両方を効果的に活用できる小説『All-Persistence Bellman Operator』を創出する。
- 参考スコア(独自算出の注目度): 40.10326490326968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the performance of learning agents is highly
sensitive to the choice of time discretization. Agents acting at high
frequencies have the best control opportunities, along with some drawbacks,
such as possible inefficient exploration and vanishing of the action
advantages. The repetition of the actions, i.e., action persistence, comes into
help, as it allows the agent to visit wider regions of the state space and
improve the estimation of the action effects. In this work, we derive a novel
All-Persistence Bellman Operator, which allows an effective use of both the
low-persistence experience, by decomposition into sub-transition, and the
high-persistence experience, thanks to the introduction of a suitable bootstrap
procedure. In this way, we employ transitions collected at any time scale to
update simultaneously the action values of the considered persistence set. We
prove the contraction property of the All-Persistence Bellman Operator and,
based on it, we extend classic Q-learning and DQN. After providing a study on
the effects of persistence, we experimentally evaluate our approach in both
tabular contexts and more challenging frameworks, including some Atari games.
- Abstract(参考訳): 強化学習においては,学習エージェントの性能は時間離散化の選択に非常に敏感である。
高頻度で行動するエージェントは、非効率な探索や行動上の利点の消滅など、いくつかの欠点と共に、最高の制御機会を持つ。
アクションの繰り返し、すなわちアクション持続性は、エージェントが状態空間の広い領域を訪れ、アクション効果の推定を改善するために助けとなる。
本研究では, 適切なブートストラップ手順の導入により, サブトランジションへの分解による低持続性経験と高持続性経験の両方を効果的に利用できる新規な全持続性ベルマン作用素を導出する。
このように、検討された永続化セットのアクション値を同時に更新するために、任意の時間スケールで収集された遷移を利用する。
我々は、全持続ベルマン作用素の収縮特性を証明し、それに基づいて古典的q-learningとdqnを拡張した。
永続性の影響についての研究を行った後、Atariゲームを含むテーブル型コンテキストとより困難なフレームワークの両方において、我々のアプローチを実験的に評価した。
関連論文リスト
- State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Concurrent Credit Assignment for Data-efficient Reinforcement Learning [0.0]
状態と行動空間を広くサンプリングする能力は、効果的な強化学習アルゴリズムを構築する上で重要な要素である。
占有モデルは、探査が進むにつれて頻繁に更新される。
その結果, サンプリングの有効性は有意に向上し, トレーニング時間を短縮し, より高いリターンが得られた。
論文 参考訳(メタデータ) (2022-05-24T12:11:34Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Control Frequency Adaptation via Action Persistence in Batch
Reinforcement Learning [40.94323379769606]
本稿では,一定回数の決定ステップに対するアクションの繰り返しを構成する動作持続性の概念を紹介する。
本稿では,FQIを拡張する新しいアルゴリズムであるPersistent Fitted Q-Iteration(PFQI)を提案する。
論文 参考訳(メタデータ) (2020-02-17T08:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。