論文の概要: A Direct Approach for Handling Contextual Bandits with Latent State Dynamics
- arxiv url: http://arxiv.org/abs/2604.08149v1
- Date: Thu, 09 Apr 2026 12:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.903852
- Title: A Direct Approach for Handling Contextual Bandits with Latent State Dynamics
- Title(参考訳): 潜在状態ダイナミクスを用いたコンテキスト帯域の直接処理法
- Authors: Zhen Li, Gilles Stoltz,
- Abstract要約: 我々はNelson et al. (2022) によって有限武装線型帯域モデルを再検討し、文脈と報酬は有限隠れマルコフ連鎖によって支配される。
隠れ状態に直接的な依存を組み込んだより自然なモデルについて検討する。
オンライン上でHMMパラメータを推定する完全適応戦略に対して、より強く、高い確率、後悔の限界を得る。
- 参考スコア(独自算出の注目度): 7.563749175104459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the finite-armed linear bandit model by Nelson et al. (2022), where contexts and rewards are governed by a finite hidden Markov chain. Nelson et al. (2022) approach this model by a reduction to linear contextual bandits; but to do so, they actually introduce a simplification in which rewards are linear functions of the posterior probabilities over the hidden states given the observed contexts, rather than functions of the hidden states themselves. Their analysis (but not their algorithm) also does not take into account the estimation of the HMM parameters, and only tackles expected, not high-probability, bounds, which suffer in addition from unnecessary complex dependencies on the model (like reward gaps). We instead study the more natural model incorporating direct dependencies in the hidden states (on top of dependencies on the observed contexts, as is natural for contextual bandits) and also obtain stronger, high-probability, regret bounds for a fully adaptive strategy that estimates HMM parameters online. These bounds do not depend on the reward functions and only depend on the model through the estimation of the HMM parameters.
- Abstract(参考訳): 我々は、Nelson et al (2022) による有限武装線形帯域モデルを再検討し、文脈と報酬は有限隠れマルコフ連鎖によって支配される。
Nelson et al (2022) はこのモデルに線形な文脈的包帯(英語版)への還元によってアプローチするが、実際には、隠れた状態自体の関数ではなく、観測された状態が与えられた後続の確率の線形関数である報酬を単純化する。
それらの分析(アルゴリズムではない)は、HMMパラメータの推定を考慮せず、(報酬ギャップのような)モデルに不要な複雑な依存に加えて、高い確率、バウンダリに対処するだけである。
代わりに、隠れた状態への直接的な依存関係(観測されたコンテキストへの依存性の上に、コンテキストの包括関係として自然なもの)を組み込んだ、より自然なモデルについて研究し、HMMパラメータをオンラインで推定する完全適応戦略に対して、より強く、高い確率、後悔すべき境界を得る。
これらの境界は報酬関数に依存しず、HMMパラメータを推定することによってのみモデルに依存する。
関連論文リスト
- Bayesian Pliable Lasso with Horseshoe Prior for Interaction Effects in GLMs with Missing Responses [0.0]
そこで本研究では,馬靴などの疎水性前駆体を主作用と相互作用効果の両方に配置する,信頼性の高いラッソを提案する。
我々の枠組みは、スパース、解釈可能な相互作用構造、および不確実性の原則的尺度を導出する。
本手法は,Githubで公開されている Texttthspliable パッケージに実装されている。
論文 参考訳(メタデータ) (2025-09-09T08:28:21Z) - Stability and Generalization for Bellman Residuals [8.250374560598493]
ベルマン残留最小化(BRM)はオフライン強化学習の魅力的な治療法として浮上している。
本稿では,SGDAが近傍のデータセット上で実行され,O(1/n)平均引数-安定性境界が得られる,単一のリアプノフポテンシャルを紹介する。
その結果、標準のニューラルネットワークパラメータ化とミニバッチSGDが得られた。
論文 参考訳(メタデータ) (2025-08-26T07:15:36Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - An Interpretable and Efficient Infinite-Order Vector Autoregressive
Model for High-Dimensional Time Series [1.4939176102916187]
本稿では,高次元時系列に対する新しいスパース無限次VARモデルを提案する。
このモデルによって得られたVARMA型力学の時間的・横断的な構造は別々に解釈できる。
統計的効率と解釈可能性の向上は、時間的情報をほとんど失わずに達成できる。
論文 参考訳(メタデータ) (2022-09-02T17:14:24Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Fundamental limits for learning hidden Markov model parameters [2.66418345185993]
学習可能なマルコフモデル(HMM)と学習不可能な隠れマルコフモデル(HMM)のフロンティアについて検討する。
HMMは、未知の集団から来る依存データをクラスタリングするための柔軟なツールである。
論文 参考訳(メタデータ) (2021-06-24T12:02:33Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。