論文の概要: Representative Action Selection for Large Action Space: From Bandits to MDPs
- arxiv url: http://arxiv.org/abs/2511.22104v1
- Date: Thu, 27 Nov 2025 04:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.396566
- Title: Representative Action Selection for Large Action Space: From Bandits to MDPs
- Title(参考訳): 大規模行動空間のための代表的行動選択:帯域からMDPへ
- Authors: Quan Zhou, Shie Mannor,
- Abstract要約: 強化学習(RL)環境の家族間で共有される非常に大きな行動空間から,小さな代表的行動サブセットを選択するという課題について検討する。
我々の目標は、家族のすべての環境において、ほぼ最適な行動を含む一定の行動のサブセットを特定することであり、それによって、すべての行動を完全に評価することなく、効率的な学習を可能にすることである。
- 参考スコア(独自算出の注目度): 47.980675309210746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of selecting a small, representative action subset from an extremely large action space shared across a family of reinforcement learning (RL) environments -- a fundamental challenge in applications like inventory management and recommendation systems, where direct learning over the entire space is intractable. Our goal is to identify a fixed subset of actions that, for every environment in the family, contains a near-optimal action, thereby enabling efficient learning without exhaustively evaluating all actions. This work extends our prior results for meta-bandits to the more general setting of Markov Decision Processes (MDPs). We prove that our existing algorithm achieves performance comparable to using the full action space. This theoretical guarantee is established under a relaxed, non-centered sub-Gaussian process model, which accommodates greater environmental heterogeneity. Consequently, our approach provides a computationally and sample-efficient solution for large-scale combinatorial decision-making under uncertainty.
- Abstract(参考訳): インベントリ管理やレコメンデーションシステムといったアプリケーションにおいて、スペース全体の直接学習が難易度の高い課題である、強化学習(RL)環境のファミリ間で共有される非常に大きなアクションスペースから、小さな代表的アクションサブセットを選択するという課題について検討する。
我々の目標は、家族のすべての環境において、ほぼ最適な行動を含む一定の行動のサブセットを特定することであり、それによって、すべての行動を完全に評価することなく、効率的な学習を可能にすることである。
本研究は,より一般的なマルコフ決定過程 (MDP) にメタバンディットの事前結果を拡張した。
我々は,既存のアルゴリズムが全動作空間に匹敵する性能を実現することを証明した。
この理論的な保証は、より大きな環境不均一性に対応する緩和された非中心のガウス過程モデルの下で確立される。
そこで本手法は,不確実性を考慮した大規模組合せ決定のための,計算的かつサンプル効率のよい解を提供する。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - DynaAct: Large Language Model Reasoning with Dynamic Action Spaces [58.298135359318024]
コンパクトなアクション空間を自動構築する新しいフレームワークtextscDynaActを提案する。
当社のアプローチは,大幅な遅延を発生させることなく,効率的な推論を維持しながら,全体的なパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-11-11T09:47:13Z) - Representative Action Selection for Large Action Space Meta-Bandits [45.81364806019332]
バンドイットの族が共有する大きなアクション空間からサブセットを選択する問題について検討する。
我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。
代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-23T18:08:57Z) - Fair Resource Allocation in Weakly Coupled Markov Decision Processes [3.824858358548714]
マルコフ決定過程の弱結合としてモデル化された逐次的意思決定環境における資源配分について考察する。
我々は、従来の実用的(total-sum)目的ではなく、一般化されたジーニ関数を用いた公正性の定義を採用する。
論文 参考訳(メタデータ) (2024-11-14T20:40:55Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。
累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Scalable Distributional Robustness in a Class of Non Convex Optimization
with Guarantees [7.541571634887807]
分散ロバスト最適化 (DRO) は, サンプルベース問題と同様に, 学習におけるロバスト性を示す。
実世界における課題を解くのに十分ではない混合整数クラスタリングプログラム (MISOCP) を提案する。
論文 参考訳(メタデータ) (2022-05-31T09:07:01Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。