論文の概要: Delays in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.11096v1
- Date: Wed, 20 Sep 2023 07:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:01:57.834679
- Title: Delays in Reinforcement Learning
- Title(参考訳): 強化学習の遅れ
- Authors: Pierre Liotet
- Abstract要約: この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。
幅広い遅延が考慮され、潜在的な解決策が提示される。
- 参考スコア(独自算出の注目度): 2.5835347022640254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Delays are inherent to most dynamical systems. Besides shifting the process
in time, they can significantly affect their performance. For this reason, it
is usually valuable to study the delay and account for it. Because they are
dynamical systems, it is of no surprise that sequential decision-making
problems such as Markov decision processes (MDP) can also be affected by
delays. These processes are the foundational framework of reinforcement
learning (RL), a paradigm whose goal is to create artificial agents capable of
learning to maximise their utility by interacting with their environment.
RL has achieved strong, sometimes astonishing, empirical results, but delays
are seldom explicitly accounted for. The understanding of the impact of delay
on the MDP is limited. In this dissertation, we propose to study the delay in
the agent's observation of the state of the environment or in the execution of
the agent's actions. We will repeatedly change our point of view on the problem
to reveal some of its structure and peculiarities. A wide spectrum of delays
will be considered, and potential solutions will be presented. This
dissertation also aims to draw links between celebrated frameworks of the RL
literature and the one of delays.
- Abstract(参考訳): 遅延は多くの力学系に固有のものである。
プロセスの時間変更に加えて、パフォーマンスにも大きく影響します。
このため、通常は遅延を調べ、それを説明することが大切である。
それらは動的システムであるため、マルコフ決定プロセス(mdp)のような逐次的な意思決定問題も遅延によって影響を受けることは驚くにあたらない。
これらのプロセスは、強化学習(RL)の基礎的な枠組みであり、その目標は、環境と対話することで有用性を最大化できる人工エージェントを作ることである。
RLは強い、時折驚くべき、経験的な結果を得たが、遅延が明確に説明されることはめったにない。
MDPに対する遅延の影響の理解は限られている。
本論文では,エージェントの環境状態の観察やエージェントの行動実行の遅延について検討する。
我々は、その構造と特異性のいくつかを明らかにするために、問題に対する我々の見解を何度も変更する。
様々な遅延が考慮され、潜在的な解決策が提示される。
この論文はまた、RL文学の著名なフレームワークと遅延の1つを関連付けることを目的としている。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays [41.52768902667611]
強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。
本稿では、短時間の遅延を含む補助的なタスクを活用して、長時間の遅延でRLを高速化する、Auxiliary-Delayed Reinforcement Learning (AD-RL) 法を提案する。
具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z) - Stochastic bandits with arm-dependent delays [102.63128271054741]
我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。
問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
論文 参考訳(メタデータ) (2020-06-18T12:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。