論文の概要: Information-directed sampling for bandits: a primer
- arxiv url: http://arxiv.org/abs/2512.20096v1
- Date: Tue, 23 Dec 2025 06:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.775342
- Title: Information-directed sampling for bandits: a primer
- Title(参考訳): バンディットのインフォメーション指向サンプリング--プライマー
- Authors: Annika Hirling, Giorgio Nicoletti, Antonio Celani,
- Abstract要約: Multi-Armed Bandit問題は、シーケンシャルラーニングにおける探索と搾取の間の緊張を分析するためのフレームワークを提供する。
我々は,最適政策に対する戦略を厳格に比較するための最小限のモデルとして,二状態ベルヌーイ・バンディットのトラクタブル環境に焦点を当てる。
IDSは有界累積後悔を実現するが,一方,一対一のケースでは,対数的に水平方向に拡大する後悔を示す。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multi-Armed Bandit problem provides a fundamental framework for analyzing the tension between exploration and exploitation in sequential learning. This paper explores Information Directed Sampling (IDS) policies, a class of heuristics that balance immediate regret against information gain. We focus on the tractable environment of two-state Bernoulli bandits as a minimal model to rigorously compare heuristic strategies against the optimal policy. We extend the IDS framework to the discounted infinite-horizon setting by introducing a modified information measure and a tuning parameter to modulate the decision-making behavior. We examine two specific problem classes: symmetric bandits and the scenario involving one fair coin. In the symmetric case we show that IDS achieves bounded cumulative regret, whereas in the one-fair-coin scenario the IDS policy yields a regret that scales logarithmically with the horizon, in agreement with classical asymptotic lower bounds. This work serves as a pedagogical synthesis, aiming to bridge concepts from reinforcement learning and information theory for an audience of statistical physicists.
- Abstract(参考訳): Multi-Armed Bandit問題は、シーケンシャルラーニングにおける探索と搾取の間の緊張を分析するための基本的なフレームワークを提供する。
本稿では,情報獲得に対する即時後悔のバランスをとるヒューリスティックスであるIDS(Information Directed Smpling)ポリシーについて検討する。
我々は,最適政策に対するヒューリスティック戦略を厳格に比較するための最小限のモデルとして,二状態ベルヌーイ・バンディットのトラクタブル環境に焦点を当てる。
我々はIDSフレームワークを、情報量修正とチューニングパラメータを導入し、意思決定行動の調整を行うことにより、割引された無限水平設定に拡張する。
対称な帯域幅と1つのフェアコインを含むシナリオの2つの特定の問題クラスについて検討する。
対称の場合、IDS は有界累積後悔を達成するが、一方、一方、単対コインの場合、IDS ポリシーは古典的な漸近的下界と一致して水平線と対数的にスケールする後悔をもたらす。
この研究は、統計物理学者の聴衆のために強化学習と情報理論から概念を橋渡しすることを目的として、教育的な合成として機能する。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Meta Learning in Bandits within Shared Affine Subspaces [4.765541373485142]
低次元アフィン部分空間の周囲の濃度を利用して,複数の文脈的包帯課題をメタラーニングする問題について検討した。
本稿では,不確実性に直面した楽観主義の原理と,トンプソンサンプリングによる楽観主義の原理に基づいて,この問題を解決するための2つの戦略を提案し,理論的に分析する。
論文 参考訳(メタデータ) (2024-03-31T13:52:07Z) - Diffusion Approximations for Thompson Sampling in the Small Gap Regime [6.508628820027702]
我々は,小さなギャップ状態におけるトンプソンサンプリングのプロセスレベルダイナミクスについて検討した。
トンプソンサンプリングのプロセスレベルダイナミクスは、ある微分方程式や常微分方程式の解に弱収束することを示す。
論文 参考訳(メタデータ) (2021-05-19T16:28:01Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Policy Evaluation and Seeking for Multi-Agent Reinforcement Learning via
Best Response [15.149039407681945]
多エージェント強化学習におけるメタレベルでの利己的な振る舞いをモデル化するために、厳密なベストレスポンスダイナミクスを採用する。
我々のアプローチは、弱い応答に依存するアルファランクよりもシングルエージェント強化学習と互換性がある。
論文 参考訳(メタデータ) (2020-06-17T01:17:52Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Meta-Learning Bandit Policies by Gradient Ascent [38.817374110000735]
バンディットポリシーは、環境パラメータの事前分布を仮定して、あらゆる問題の場合やベイズ的な意味での後悔を最小限に抑えるように設計されている。
本稿では,この2つの極端の間に生じる帯域幅の問題について検討する。
本稿では,パラメータ化バンディットポリシーの利用法を提案する。
論文 参考訳(メタデータ) (2020-06-09T07:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。