論文の概要: Multiplayer Information Asymmetric Bandits in Metric Spaces
- arxiv url: http://arxiv.org/abs/2503.08004v1
- Date: Tue, 11 Mar 2025 03:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:50.817537
- Title: Multiplayer Information Asymmetric Bandits in Metric Spaces
- Title(参考訳): メトリック空間におけるマルチプレイヤー情報非対称帯域
- Authors: William Chang, Aditi Kartik,
- Abstract要約: 我々は報奨、行動、あるいはその両方において情報非対称性を考慮する。
我々は citekleinberg 2004nearly で与えられた CAB アルゴリズムを採用する。
また,適応的な離散化を用いたズームアルゴリズム kleinberg2008multi を引用し,報奨における情報非対称性と行動における情報非対称性に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years the information asymmetric Lipschitz bandits In this paper we studied the Lipschitz bandit problem applied to the multiplayer information asymmetric problem studied in \cite{chang2022online, chang2023optimal}. More specifically we consider information asymmetry in rewards, actions, or both. We adopt the CAB algorithm given in \cite{kleinberg2004nearly} which uses a fixed discretization to give regret bounds of the same order (in the dimension of the action) space in all 3 problem settings. We also adopt their zooming algorithm \cite{ kleinberg2008multi}which uses an adaptive discretization and apply it to information asymmetry in rewards and information asymmetry in actions.
- Abstract(参考訳): 近年、情報非対称なリプシッツバンドイット(英語版)では、多人数情報非対称問題に適用されたリプシッツバンドイット問題(英語版)について研究している。
より具体的には、報酬、行動、またはその両方において情報非対称性を考慮する。
我々は,3つの問題設定のすべてにおいて,同じ順序(アクションの次元)空間の後悔境界を与える固定離散化を用いたCABアルゴリズムを採用する。
また、適応的離散化を用いたズームアルゴリズム \cite{ kleinberg2008multi} を採用し、報酬における情報非対称性と行動における情報非対称性に適用する。
関連論文リスト
- Computing Game Symmetries and Equilibria That Respect Them [77.72705755558839]
ゲームにおける対称性の同定と利用の計算について検討する。
ゲーム対称性とグラフ自己同型の間には強い関係がある。
与えられた対称性の集合を尊重するナッシュ均衡を求めることは、ブラウワーの不動点や勾配降下問題と全く同じほど難しいことを示す。
論文 参考訳(メタデータ) (2025-01-15T16:15:16Z) - Symmetric Linear Bandits with Hidden Symmetry [17.40632789343385]
学習者から対称性を隠蔽する高次元対称線形包帯について検討する。
低次元部分空間の集合におけるモデル選択に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T18:11:57Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Invariant Lipschitz Bandits: A Side Observation Approach [18.688474183114085]
不変リプシッツ・バンディット・セッティング (invariant Lipschitz bandit set) について検討し、報酬関数と腕の集合を変換群の下で保存する。
我々は、グループ軌道を用いた側面観測を自然に統合する textttUniformMesh-N というアルゴリズムを導入する。
我々は、群が有限であることを考えると、群の濃度に依存するような改善された後悔の上界を証明する。
論文 参考訳(メタデータ) (2022-12-14T22:12:32Z) - Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits [17.470829701201435]
我々は,RussoとVan Royの情報理論的視点を,情報比という新たな概念を導入して,文脈設定に適用する。
これにより、非常に単純な証明を通じて、先行分布のエントロピーの観点から、後悔を束縛することができる。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K アクション、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない$widetildeO(sqrtdKT)$ regret上界を提供する。
論文 参考訳(メタデータ) (2022-05-27T12:04:07Z) - A gradient estimator via L1-randomization for online zero-order
optimization with two point feedback [93.57603470949266]
2つの関数評価とランダム化に基づく新しい勾配推定器を提案する。
ゼロ次オラクルの雑音に対する仮定は,ノイズのキャンセルと逆方向雑音の2種類について考察する。
我々は、問題の全てのパラメータに適応する、いつでも完全にデータ駆動のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-05-27T11:23:57Z) - A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit [1.2183405753834562]
この研究は、両腕のベルヌーイ・バンディット問題(英語版)(Bernoulli bandit problem)の、腕の手段の和が1であるバージョンに対処する。
我々は, それぞれの問題を線形熱方程式の解に関連付けることにより, minmax最適後悔と擬似回帰の先行順序項を得る。
論文 参考訳(メタデータ) (2022-02-11T17:03:18Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。