論文の概要: Selective Reviews of Bandit Problems in AI via a Statistical View
- arxiv url: http://arxiv.org/abs/2412.02251v1
- Date: Tue, 03 Dec 2024 08:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:06.555893
- Title: Selective Reviews of Bandit Problems in AI via a Statistical View
- Title(参考訳): 統計的視点によるAIにおける帯域問題の選択的レビュー
- Authors: Pengjie Zhou, Haoyu Wei, Huiming Zhang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、人工知能の分野で広く研究されている分野であり、エージェントと環境との相互作用を通じて意思決定を教えることに焦点を当てている。
鍵となるサブセットには、マルチアーム・バンディット(MAB)と連続アーム・バンディット(SCAB)の問題が含まれ、不確実性の下でのシーケンシャルな意思決定をモデル化する。
本稿では,バンドイット問題の基本モデルと仮定を概説し,集中不平等やミニマックス後悔境界といった非漸近的理論ツールを探求し,探索-探索トレードオフを管理するための頻繁なアルゴリズムとベイズ的アルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 1.9458156037869137
- License:
- Abstract: Reinforcement Learning (RL) is a widely researched area in artificial intelligence that focuses on teaching agents decision-making through interactions with their environment. A key subset includes stochastic multi-armed bandit (MAB) and continuum-armed bandit (SCAB) problems, which model sequential decision-making under uncertainty. This review outlines the foundational models and assumptions of bandit problems, explores non-asymptotic theoretical tools like concentration inequalities and minimax regret bounds, and compares frequentist and Bayesian algorithms for managing exploration-exploitation trade-offs. We also extend the discussion to $K$-armed contextual bandits and SCAB, examining their methodologies, regret analyses, and discussing the relation between the SCAB problems and the functional data analysis. Finally, we highlight recent advances and ongoing challenges in the field.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、人工知能の分野で広く研究されている分野であり、エージェントと環境との相互作用を通じて意思決定を教えることに焦点を当てている。
鍵となるサブセットは確率的多重武装バンディット(MAB)と連続武装バンディット(SCAB)問題を含み、不確実性の下での逐次決定をモデル化する。
本稿では,バンドイット問題の基本モデルと仮定を概説し,集中不平等やミニマックス後悔境界といった非漸近的理論ツールを探求し,探索-探索トレードオフを管理するための頻繁なアルゴリズムとベイズ的アルゴリズムを比較した。
また、この議論を$K$のアーマード・コンテキスト・バンディットとSCABに拡張し、それらの方法論を調べ、後悔の分析を行い、SCAB問題と機能的データ分析との関係について論じる。
最後に、この分野における最近の進歩と現在進行中の課題を強調します。
関連論文リスト
- Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Foundations of Reinforcement Learning and Interactive Decision Making [81.76863968810423]
本稿では,頻度主義的アプローチとベイズ的アプローチを用いた探索・探索ジレンマに対処するための統一的な枠組みを提案する。
ニューラルネットワークのような近似とフレキシブルなモデルクラスを機能させるために特別な注意が払われる。
論文 参考訳(メタデータ) (2023-12-27T21:58:45Z) - An Information-Theoretic Analysis of Bayesian Reinforcement Learning [44.025369660607645]
この定義を,カーネルパラメータが不明なマルコフ決定過程(MDP)としてモデル化した強化学習問題に特化させる。
我々の境界は、Russo と Van Roy による現在の情報理論境界の下から回復できることを示す。
論文 参考訳(メタデータ) (2022-07-18T16:28:01Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit
Problems [0.0]
我々は、ディリクレ・マルチノミカルモデルを表現する簡潔で表現力のある枠組みである主観的論理の形式主義を主観的意見として考える。
マルチアームバンディット問題に対処するために,主観論理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-17T14:53:17Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。