論文の概要: Adaptive Exploration for Latent-State Bandits
- arxiv url: http://arxiv.org/abs/2602.05139v1
- Date: Wed, 04 Feb 2026 23:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.671604
- Title: Adaptive Exploration for Latent-State Bandits
- Title(参考訳): 潜在状態帯域に対する適応探索
- Authors: Jikai Jin, Kenneth Hung, Sanath Kumar Krishnamurthy, Baoyi Shi, Congshan Zhang,
- Abstract要約: 我々は,タグ付きコンテキスト特徴と協調探索戦略を利用する,状態モデルフリーな帯域幅アルゴリズムのファミリーを導入する。
これらは潜在状態を暗黙的に追跡し、状態依存の報酬パターンを曖昧にします。
様々な設定における実証的な結果は、古典的なアプローチよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 7.757117209804723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit problem is a core framework for sequential decision-making under uncertainty, but classical algorithms often fail in environments with hidden, time-varying states that confound reward estimation and optimal action selection. We address key challenges arising from unobserved confounders, such as biased reward estimates and limited state information, by introducing a family of state-model-free bandit algorithms that leverage lagged contextual features and coordinated probing strategies. These implicitly track latent states and disambiguate state-dependent reward patterns. Our methods and their adaptive variants can learn optimal policies without explicit state modeling, combining computational efficiency with robust adaptation to non-stationary rewards. Empirical results across diverse settings demonstrate superior performance over classical approaches, and we provide practical recommendations for algorithm selection in real-world applications.
- Abstract(参考訳): マルチアームバンディット問題は、不確実性の下でのシーケンシャルな意思決定のためのコアフレームワークであるが、古典的なアルゴリズムは、報酬推定と最適な行動選択を共起する隠れた時間変化状態の環境で失敗することが多い。
偏見付き報酬推定や限られた状態情報といった、観測されていない共同設立者から生じる重要な課題に対処するため、ラベル付きコンテキスト特徴と協調探索戦略を活用する、状態モデルなしバンディットアルゴリズムのファミリを導入する。
これらは潜在状態を暗黙的に追跡し、状態依存の報酬パターンを曖昧にします。
提案手法とその適応変数は,計算効率と非定常報酬への頑健な適応を組み合わせることで,明示的な状態モデリングを伴わずに最適なポリシーを学習することができる。
様々な環境における実験結果は,従来の手法よりも優れた性能を示し,実世界のアプリケーションにおけるアルゴリズム選択の実践的推奨を提供する。
関連論文リスト
- Pattern based learning and optimisation through pricing for bin packing problem [50.83768979636913]
確率変数の分布のような問題条件が変化すると、以前の状況でうまく機能するパターンはより効果的になるかもしれないと論じる。
本研究では,パターンを効率的に同定し,各条件に対する値の動的定量化を行う新しい手法を提案する。
本手法は,制約を満たす能力と目的値に対する影響に基づいて,パターンの値の定量化を行う。
論文 参考訳(メタデータ) (2024-08-27T17:03:48Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Introduction to Online Control [31.67032731719622]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。