論文の概要: Is Pure Exploitation Sufficient in Exogenous MDPs with Linear Function Approximation?
- arxiv url: http://arxiv.org/abs/2601.20694v1
- Date: Wed, 28 Jan 2026 15:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.996898
- Title: Is Pure Exploitation Sufficient in Exogenous MDPs with Linear Function Approximation?
- Title(参考訳): 線形関数近似を用いた外因性MDPの純爆発能は十分か?
- Authors: Hao Liang, Jiayu Cheng, Sean R. Sinclair, Yali Du,
- Abstract要約: 外因性MDP(Exo-MDPs)は、学習者の行動から独立して進化する入力からのみ不確実性が生じるシーケンシャルな意思決定をキャプチャする。
何十年にもわたって、欲求と搾取のみの手法がこれらの環境で驚くほどうまく機能しているという実証的な証拠にもかかわらず、理論は後れを取っている。
そこで我々はPure Exploitation Learning (PEL) を提案し,Exo-MDPにおけるエクスプロイトのみのアルゴリズムに対する最初の一般有限サンプル後悔境界を証明した。
- 参考スコア(独自算出の注目度): 10.117197604524465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exogenous MDPs (Exo-MDPs) capture sequential decision-making where uncertainty comes solely from exogenous inputs that evolve independently of the learner's actions. This structure is especially common in operations research applications such as inventory control, energy storage, and resource allocation, where exogenous randomness (e.g., demand, arrivals, or prices) drives system behavior. Despite decades of empirical evidence that greedy, exploitation-only methods work remarkably well in these settings, theory has lagged behind: all existing regret guarantees for Exo-MDPs rely on explicit exploration or tabular assumptions. We show that exploration is unnecessary. We propose Pure Exploitation Learning (PEL) and prove the first general finite-sample regret bounds for exploitation-only algorithms in Exo-MDPs. In the tabular case, PEL achieves $\widetilde{O}(H^2|Ξ|\sqrt{K})$. For large, continuous endogenous state spaces, we introduce LSVI-PE, a simple linear-approximation method whose regret is polynomial in the feature dimension, exogenous state space, and horizon, independent of the endogenous state and action spaces. Our analysis introduces two new tools: counterfactual trajectories and Bellman-closed feature transport, which together allow greedy policies to have accurate value estimates without optimism. Experiments on synthetic and resource-management tasks show that PEL consistently outperforming baselines. Overall, our results overturn the conventional wisdom that exploration is required, demonstrating that in Exo-MDPs, pure exploitation is enough.
- Abstract(参考訳): 外因性MDP(Exo-MDPs)は、学習者の行動から独立して進化する外因性入力からのみ不確実性が生じるシーケンシャルな意思決定をキャプチャする。
この構造は、在庫管理、エネルギー貯蔵、資源配分といったオペレーション研究の応用において特に一般的であり、外因性ランダム性(需要、到着、価格など)がシステムの振る舞いを駆動する。
何十年にもわたって、強欲で搾取のみの手法がこれらの設定で驚くほどうまく機能しているという実証的な証拠にもかかわらず、理論は遅れを取っている。
探索は不要であることを示す。
そこで我々はPure Exploitation Learning (PEL) を提案し,Exo-MDPにおけるエクスプロイトのみのアルゴリズムに対する最初の一般有限サンプル後悔境界を証明した。
表の場合、PEL は $\widetilde{O}(H^2|\sqrt{K})$ となる。
大規模かつ連続的な内在的状態空間に対して、内在的状態空間と行動空間とは独立に、特徴次元、外在的状態空間、地平線における多項式を後悔する単純な線形近似法LSVI-PEを導入する。
本分析では, 擬似軌道とベルマン閉ざされた特徴伝達という2つの新しい手法を導入し, グリージーポリシーを協調して, 最適化なしに正確な値推定を行えるようにした。
合成および資源管理タスクの実験は、PELが一貫してベースラインを上回っていることを示している。
総じて,エクソMDPでは,純粋な搾取が十分であることを示す上で,探索が必要とされる従来の知恵を覆す結果となった。
関連論文リスト
- Greedy Is Enough: Sparse Action Discovery in Agentic LLMs [11.62669179647184]
経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
論文 参考訳(メタデータ) (2026-01-13T07:15:32Z) - Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning [44.17068570786194]
マルコフ決定過程(MDPs)の構造クラスであるExo-MDPsについて検討する。
外因性状態はエージェントの行動とは独立して進化し、内因性状態は状態成分と行動の両方に基づいて決定的に進化する。
Exo-MDPは在庫管理、ポートフォリオ管理、ライドシェアリングなどのアプリケーションに有用である。
論文 参考訳(メタデータ) (2024-09-22T18:45:38Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part I [57.29427648134142]
本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は、観測や動作を予測せずにコストを予測することによって、潜在状態空間の動的モデルを学習するコスト駆動アプローチを追求する。
論文 参考訳(メタデータ) (2022-12-30T01:42:04Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Learning to Stop with Surprisingly Few Samples [17.46537996825982]
我々は、無限の地平線最適停止問題を考える。
基礎となる分布が事前分布であるならば、この問題の解は動的プログラミングによって得られる。
この分布に関する情報が欠如している場合、自然な(素朴な)アプローチは "explore-then-exploit" である。
論文 参考訳(メタデータ) (2021-02-19T16:51:07Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。