論文の概要: Q-function Decomposition with Intervention Semantics with Factored Action Spaces
- arxiv url: http://arxiv.org/abs/2504.21326v1
- Date: Wed, 30 Apr 2025 05:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:24:11.331923
- Title: Q-function Decomposition with Intervention Semantics with Factored Action Spaces
- Title(参考訳): 干渉セマンティックスを用いたQ関数分解
- Authors: Junkyu Lee, Tian Gao, Elliot Nelson, Miao Liu, Debarun Bhattacharjya, Songtao Lu,
- Abstract要約: 元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
- 参考スコア(独自算出の注目度): 51.01244229483353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many practical reinforcement learning environments have a discrete factored action space that induces a large combinatorial set of actions, thereby posing significant challenges. Existing approaches leverage the regular structure of the action space and resort to a linear decomposition of Q-functions, which avoids enumerating all combinations of factored actions. In this paper, we consider Q-functions defined over a lower dimensional projected subspace of the original action space, and study the condition for the unbiasedness of decomposed Q-functions using causal effect estimation from the no unobserved confounder setting in causal statistics. This leads to a general scheme which we call action decomposed reinforcement learning that uses the projected Q-functions to approximate the Q-function in standard model-free reinforcement learning algorithms. The proposed approach is shown to improve sample complexity in a model-based reinforcement learning setting. We demonstrate improvements in sample efficiency compared to state-of-the-art baselines in online continuous control environments and a real-world offline sepsis treatment environment.
- Abstract(参考訳): 多くの実践的な強化学習環境は、離散的な因子化された行動空間を持ち、大きな組合せ的な行動の集合を誘導し、重要な課題を生じさせる。
既存のアプローチでは、作用空間の正則構造を利用し、Q-函数の線型分解を利用する。
本稿では、原アクション空間の低次元射影部分空間上で定義されるQ-函数について考察し、因果統計における非観測的共創者設定から因果効果推定を用いた分解Q-函数の不偏性条件について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
提案手法は,モデルに基づく強化学習環境において,サンプルの複雑さを改善することを目的としている。
オンライン連続制御環境と実世界のオフラインセプシス処理環境における最先端のベースラインと比較して,サンプル効率の改善を示す。
関連論文リスト
- Kernel-based estimators for functional causal effects [1.6749379740049928]
実験的なFr'echet平均と演算子評価カーネルに基づく因果効果推定器を提案する。
これらの手法は、処理ミス特異性に対する堅牢性を維持しながら、高次元性、逐次順序付け、モデル複雑性の課題に対処する。
論文 参考訳(メタデータ) (2025-03-06T22:48:55Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error
Feedback [31.115084475673793]
アンサンブル法はQ-ラーニングにおける過大評価問題を緩和するための有望な方法である。
推定バイアスはアンサンブルサイズに大きく依存していることが知られている。
本研究では, (a) アンサンブルサイズを柔軟に制御するためのフィードバックとなる近似誤差特性と, (b) 推定バイアスを最小化するためのアンサンブルサイズ適応の2つの重要なステップを考案する。
論文 参考訳(メタデータ) (2023-06-20T22:06:14Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Non-Linear Reinforcement Learning in Large Action Spaces: Structural Conditions and Sample-efficiency of Posterior Sampling [28.371541697552928]
一般作用空間を線形埋め込み性条件下で保持する非線形関数近似の最初の結果を示す。
最悪の場合,RL問題のランクパラメータでスケールが保証される。
論文 参考訳(メタデータ) (2022-03-15T20:50:26Z) - Ideal formulations for constrained convex optimization problems with
indicator variables [2.578242050187029]
本研究では,指標変数と指標に対する制約を用いた凸最適化問題のクラスを凸化することを検討した。
スパース回帰問題の凸化に関する従来の研究とは異なり、非線形非分離対象、指標変数、制約を同時に検討する。
階層性,多行性,空間性制約といった問題に対する理想的な凸化を導出する。
論文 参考訳(メタデータ) (2020-06-30T21:07:10Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。