論文の概要: On shallow planning under partial observability
- arxiv url: http://arxiv.org/abs/2407.15820v1
- Date: Mon, 22 Jul 2024 17:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:51:10.692652
- Title: On shallow planning under partial observability
- Title(参考訳): 部分観測可能性下における浅層計画について
- Authors: Randy Lefebvre, Audrey Durand,
- Abstract要約: 本研究は,マルコフ決定過程の構造パラメータの偏差トレードオフに対する割引係数の影響について検討する。
この結果は,特に部分観測可能性の下では,より短い計画的地平が有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.702325864333419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formulating a real-world problem under the Reinforcement Learning framework involves non-trivial design choices, such as selecting a discount factor for the learning objective (discounted cumulative rewards), which articulates the planning horizon of the agent. This work investigates the impact of the discount factor on the biasvariance trade-off given structural parameters of the underlying Markov Decision Process. Our results support the idea that a shorter planning horizon might be beneficial, especially under partial observability.
- Abstract(参考訳): 強化学習フレームワーク(Reinforcement Learning framework)の下で現実の問題を定式化するには、エージェントの計画的地平を明示する学習目的(計算累積報酬)の割引係数を選択するなど、非自明な設計選択が必要となる。
本研究は,マルコフ決定過程の構造パラメータの偏差トレードオフに対する割引係数の影響について検討する。
この結果は,特に部分観測可能性の下では,より短い計画的地平が有用である可能性が示唆された。
関連論文リスト
- Towards Representation Learning for Weighting Problems in Design-Based Causal Inference [1.1060425537315088]
本稿では,有望な理論的特性を維持しつつ,フレキシブルな表現を学習するエンド・ツー・エンド推定手法を提案する。
このアプローチは、様々な共通因果推論タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2024-09-24T19:16:37Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Refining Diffusion Planner for Reliable Behavior Synthesis by Automatic
Detection of Infeasible Plans [25.326624139426514]
拡散に基づくプランニングは、長期のスパースリワードタスクにおいて有望な結果を示している。
しかし、生成モデルとしての性質のため、拡散モデルは実現可能な計画を生成することが保証されない。
本稿では,拡散モデルが生成する信頼できない計画を改善するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T10:35:42Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Probabilistic contingent planning based on HTN for high-quality plans [8.23558342809427]
本稿では,HTNプランナとして High-Quality Contingent Planner (HQCP) を提案する。
HQCPは、部分的に観測可能な環境で高品質な計画を生成する。
HTN計画の形式は部分的な可観測性に拡張され、コストについて評価される。
論文 参考訳(メタデータ) (2023-08-14T03:55:14Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。