Fugu-MT 論文翻訳(概要): Representative Action Selection for Large Action-Space Meta-Bandits

論文の概要: Representative Action Selection for Large Action-Space Meta-Bandits

arxiv url: http://arxiv.org/abs/2505.18269v1
Date: Fri, 23 May 2025 18:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.313745
Title: Representative Action Selection for Large Action-Space Meta-Bandits
Title（参考訳）: 大規模行動空間メタバンドに対する代表的行動選択
Authors: Quan Zhou, Mark Kozdoba, Shie Mannor,
Abstract要約: バンドイットの族が共有する大きなアクション空間からサブセットを選択する問題について検討する。我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 49.386906771833274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of selecting a subset from a large action space shared by a family of bandits, with the goal of achieving performance nearly matching that of using the full action space. We assume that similar actions tend to have related payoffs, modeled by a Gaussian process. To exploit this structure, we propose a simple epsilon-net algorithm to select a representative subset. We provide theoretical guarantees for its performance and compare it empirically to Thompson Sampling and Upper Confidence Bound.
Abstract（参考訳）: 本研究では,一群の盗賊が共有する大規模アクション空間からサブセットを選択することの課題について,全アクション空間とほぼ一致する性能を達成することを目的として検討する。我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。この構造を利用するために,代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。我々は,その性能を理論的に保証し,トンプソンサンプリングやアッパー信頼境界と比較した。

関連論文リスト

Representative Action Selection for Large Action Space: From Bandits to MDPs [47.980675309210746]
強化学習(RL)環境の家族間で共有される非常に大きな行動空間から,小さな代表的行動サブセットを選択するという課題について検討する。我々の目標は、家族のすべての環境において、ほぼ最適な行動を含む一定の行動のサブセットを特定することであり、それによって、すべての行動を完全に評価することなく、効率的な学習を可能にすることである。
論文参考訳（メタデータ） (2025-11-27T04:49:23Z)
Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits [15.700062892888084]
我々は、割り当て前に選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを導入する。報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-06-17T21:43:21Z)
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文参考訳（メタデータ） (2024-09-13T06:40:56Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits [9.333087475006003]
ProtoBanditは、ソースデータセットから情報的データインスタンスのコンパクトなセットを特定するための、マルチアームのBanditベースのフレームワークである。提案アルゴリズムは,数桁の類似性計算コール数(100～1000倍)を削減し,最先端手法と同等の解を求める。
論文参考訳（メタデータ） (2022-10-04T19:03:47Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文参考訳（メタデータ） (2021-09-06T08:58:01Z)
Bayesian decision-making under misspecified priors with applications to meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。性能は不特定な事前条件で優雅に低下することを示す。
論文参考訳（メタデータ） (2021-07-03T23:17:26Z)
Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文参考訳（メタデータ） (2021-06-15T14:40:34Z)
Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文参考訳（メタデータ） (2021-01-21T10:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。