論文の概要: A Frequency-Domain Analysis of the Multi-Armed Bandit Problem: A New Perspective on the Exploration-Exploitation Trade-off
- arxiv url: http://arxiv.org/abs/2510.08908v1
- Date: Fri, 10 Oct 2025 01:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.99055
- Title: A Frequency-Domain Analysis of the Multi-Armed Bandit Problem: A New Perspective on the Exploration-Exploitation Trade-off
- Title(参考訳): マルチアーマッド帯域問題の周波数領域解析:探索・探索トレードオフの新しい視点
- Authors: Di Zhang,
- Abstract要約: マルチアームバンディット(MAB)問題は、シーケンシャルな意思決定において最も基本的なモデルの一つである。
本稿では,信号処理問題として帯域幅過程を再構成する新しい周波数領域解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.201374511929538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic multi-armed bandit (MAB) problem is one of the most fundamental models in sequential decision-making, with the core challenge being the trade-off between exploration and exploitation. Although algorithms such as Upper Confidence Bound (UCB) and Thompson Sampling, along with their regret theories, are well-established, existing analyses primarily operate from a time-domain and cumulative regret perspective, struggling to characterize the dynamic nature of the learning process. This paper proposes a novel frequency-domain analysis framework, reformulating the bandit process as a signal processing problem. Within this framework, the reward estimate of each arm is viewed as a spectral component, with its uncertainty corresponding to the component's frequency, and the bandit algorithm is interpreted as an adaptive filter. We construct a formal Frequency-Domain Bandit Model and prove the main theorem: the confidence bound term in the UCB algorithm is equivalent in the frequency domain to a time-varying gain applied to uncertain spectral components, a gain inversely proportional to the square root of the visit count. Based on this, we further derive finite-time dynamic bounds concerning the exploration rate decay. This theory not only provides a novel and intuitive physical interpretation for classical algorithms but also lays a rigorous theoretical foundation for designing next-generation algorithms with adaptive parameter adjustment.
- Abstract(参考訳): 確率的マルチアーム・バンディット(MAB)問題は、シーケンシャルな意思決定における最も基本的なモデルの1つであり、探索と搾取のトレードオフが主な課題である。
アッパー信頼境界 (UCB) やトンプソンサンプリング (Thompson Sampling) のようなアルゴリズムは、その後悔理論とともに確立されているが、既存の分析は主に時間領域と累積的後悔の観点から行われ、学習過程の動的な性質を特徴づけるのに苦労している。
本稿では,信号処理問題として帯域幅過程を再構成する新しい周波数領域解析フレームワークを提案する。
この枠組みでは、各アームの報酬推定をスペクトル成分とみなし、その不確実性は成分の周波数に対応し、帯域幅アルゴリズムは適応フィルタとして解釈される。
UCBアルゴリズムの信頼境界項は周波数領域において、不確実なスペクトル成分に適用された時間変化利得と等価であり、訪問カウントの平方根に逆比例する。
これに基づいて、探索速度減衰に関する有限時間動的境界を導出する。
この理論は、古典的アルゴリズムの新しい直感的な物理解釈を提供するだけでなく、適応パラメータ調整による次世代アルゴリズムを設計するための厳密な理論基盤も設けている。
関連論文リスト
- Impact of Temporally Correlated Dephasing Noise on the Fidelity of the 2-Qubit Deutsch-Jozsa Algorithm [0.76146285961466]
量子系のノイズはしばしば時間的相関を示し、非マルコフ力学に繋がる。
本稿では,時間相関雑音が2ビットDeutsch-Jozsaアルゴリズムの忠実度に与える影響について検討する。
論文 参考訳(メタデータ) (2025-06-05T18:48:50Z) - Optimal sparse phase retrieval via a quasi-Bayesian approach [0.0]
位相情報はアクセス不能のままでありながら、信号はその変換の大きさだけを使用して再構成する必要がある。
我々は,新しいスパース準ベイズ的アプローチを導入し,そのようなアプローチに対する最初の理論的保証を提供する。
この結果から,提案したベイズ推定器は準指数雑音下での最小最適収束率を達成することが確認された。
論文 参考訳(メタデータ) (2025-04-13T10:21:35Z) - MFRS: A Multi-Frequency Reference Series Approach to Scalable and Accurate Time-Series Forecasting [51.94256702463408]
時系列予測は、周波数の異なる周期特性から導かれる。
マルチ周波数参照系列相関解析に基づく新しい時系列予測手法を提案する。
主要なオープンデータセットと合成データセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T11:40:14Z) - Benchmarking Diffusion Annealing-Based Bayesian Inverse Problem Solvers [4.429516572803286]
本研究は拡散モデルに基づくサンプリング器の性能評価のための3つのベンチマーク問題を紹介する。
ベンチマーク問題は、画像インペイント、X線トモグラフィー、位相検索の問題にインスパイアされている。
この設定では、近似的な接地トラス後部サンプルを得ることができ、後部サンプリングアルゴリズムの性能を原則的に評価することができる。
論文 参考訳(メタデータ) (2025-03-04T21:07:15Z) - A Deep Unrolling Model with Hybrid Optimization Structure for Hyperspectral Image Deconvolution [50.13564338607482]
本稿では,DeepMixと呼ばれるハイパースペクトルデコンボリューション問題に対する新しい最適化フレームワークを提案する。
これは3つの異なるモジュール、すなわちデータ一貫性モジュール、手作りの正規化器の効果を強制するモジュール、および装飾モジュールで構成されている。
本研究は,他のモジュールの協調作業によって達成される進歩を維持するために設計された,文脈を考慮した認知型モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Fitting time-dependent Markovian dynamics to noisy quantum channels [0.0]
エラーをキャラクタリゼーションし緩和する方法を理解することは、短期アプリケーションのための信頼性の高い量子アーキテクチャを開発する上で重要な課題である。
最近の研究は、未知のノイズプロセスを分析するための効率的なアルゴリズムセットを提供する。
本稿では、スナップショットのシーケンスから時間依存ジェネレータでノイズダイナミクスを解析できるスキームの拡張について述べる。
論文 参考訳(メタデータ) (2023-03-15T21:05:13Z) - Transformer Meets Boundary Value Inverse Problems [4.165221477234755]
変圧器を用いた深部直接サンプリング法は境界値逆問題のクラスを解くために提案される。
慎重に設計されたデータと再構成された画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。
論文 参考訳(メタデータ) (2022-09-29T17:45:25Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。