論文の概要: Representative Action Selection for Large Action Space: From Bandits to MDPs
- arxiv url: http://arxiv.org/abs/2511.22104v1
- Date: Thu, 27 Nov 2025 04:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.396566
- Title: Representative Action Selection for Large Action Space: From Bandits to MDPs
- Title(参考訳): 大規模行動空間のための代表的行動選択:帯域からMDPへ
- Authors: Quan Zhou, Shie Mannor,
- Abstract要約: 強化学習(RL)環境の家族間で共有される非常に大きな行動空間から,小さな代表的行動サブセットを選択するという課題について検討する。
我々の目標は、家族のすべての環境において、ほぼ最適な行動を含む一定の行動のサブセットを特定することであり、それによって、すべての行動を完全に評価することなく、効率的な学習を可能にすることである。
- 参考スコア(独自算出の注目度): 47.980675309210746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of selecting a small, representative action subset from an extremely large action space shared across a family of reinforcement learning (RL) environments -- a fundamental challenge in applications like inventory management and recommendation systems, where direct learning over the entire space is intractable. Our goal is to identify a fixed subset of actions that, for every environment in the family, contains a near-optimal action, thereby enabling efficient learning without exhaustively evaluating all actions. This work extends our prior results for meta-bandits to the more general setting of Markov Decision Processes (MDPs). We prove that our existing algorithm achieves performance comparable to using the full action space. This theoretical guarantee is established under a relaxed, non-centered sub-Gaussian process model, which accommodates greater environmental heterogeneity. Consequently, our approach provides a computationally and sample-efficient solution for large-scale combinatorial decision-making under uncertainty.
- Abstract(参考訳): インベントリ管理やレコメンデーションシステムといったアプリケーションにおいて、スペース全体の直接学習が難易度の高い課題である、強化学習(RL)環境のファミリ間で共有される非常に大きなアクションスペースから、小さな代表的アクションサブセットを選択するという課題について検討する。
我々の目標は、家族のすべての環境において、ほぼ最適な行動を含む一定の行動のサブセットを特定することであり、それによって、すべての行動を完全に評価することなく、効率的な学習を可能にすることである。
本研究は,より一般的なマルコフ決定過程 (MDP) にメタバンディットの事前結果を拡張した。
我々は,既存のアルゴリズムが全動作空間に匹敵する性能を実現することを証明した。
この理論的な保証は、より大きな環境不均一性に対応する緩和された非中心のガウス過程モデルの下で確立される。
そこで本手法は,不確実性を考慮した大規模組合せ決定のための,計算的かつサンプル効率のよい解を提供する。
関連論文リスト
- DynaAct: Large Language Model Reasoning with Dynamic Action Spaces [58.298135359318024]
コンパクトなアクション空間を自動構築する新しいフレームワークtextscDynaActを提案する。
当社のアプローチは,大幅な遅延を発生させることなく,効率的な推論を維持しながら,全体的なパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-11-11T09:47:13Z) - Representative Action Selection for Large Action Space Meta-Bandits [45.81364806019332]
バンドイットの族が共有する大きなアクション空間からサブセットを選択する問題について検討する。
我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。
代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-23T18:08:57Z) - Fair Resource Allocation in Weakly Coupled Markov Decision Processes [3.824858358548714]
マルコフ決定過程の弱結合としてモデル化された逐次的意思決定環境における資源配分について考察する。
我々は、従来の実用的(total-sum)目的ではなく、一般化されたジーニ関数を用いた公正性の定義を採用する。
論文 参考訳(メタデータ) (2024-11-14T20:40:55Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。