論文の概要: An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System
- arxiv url: http://arxiv.org/abs/2504.03926v1
- Date: Fri, 04 Apr 2025 20:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:50.924491
- Title: An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System
- Title(参考訳): 線形ガウス力学系による線形確率帯域探索
- Authors: Jonathan Gornet, Yilin Mo, Bruno Sinopoli,
- Abstract要約: マルチアームの盗賊では、学習者が直面する大きな問題は、探索と搾取の間のトレードオフである。
本稿では,線形ガウス力学系の出力となる線形バンディットについて述べる。
本稿では,カルマンフィルタを用いた探索自由度探索法であるカルマンフィルタオブザーバビリティ依存探索法(KODE)を提案する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License:
- Abstract: In stochastic multi-armed bandits, a major problem the learner faces is the trade-off between exploration and exploitation. Recently, exploration-free methods -- methods that commit to the action predicted to return the highest reward -- have been studied from the perspective of linear bandits. In this paper, we introduce a linear bandit setting where the reward is the output of a linear Gaussian dynamical system. Motivated by a problem encountered in hyperparameter optimization for reinforcement learning, where the number of actions is much higher than the number of training iterations, we propose Kalman filter Observability Dependent Exploration (KODE), an exploration-free method that utilizes the Kalman filter predictions to select actions. Our major contribution of this work is our analysis of the performance of the proposed method, which is dependent on the observability properties of the underlying linear Gaussian dynamical system. We evaluate KODE via two different metrics: regret, which is the cumulative expected difference between the highest possible reward and the reward sampled by KODE, and action alignment, which measures how closely KODE's chosen action aligns with the linear Gaussian dynamical system's state variable. To provide intuition on the performance, we prove that KODE implicitly encourages the learner to explore actions depending on the observability of the linear Gaussian dynamical system. This method is compared to several well-known stochastic multi-armed bandit algorithms to validate our theoretical results.
- Abstract(参考訳): 確率的マルチ武器の盗賊では、学習者が直面する大きな問題は、探索と搾取の間のトレードオフである。
近年,リニアバンディットの観点から,最も高い報酬を返すと予測される行動にコミットする調査自由な手法が研究されている。
本稿では,線形ガウス力学系の出力となる線形バンディットについて述べる。
強化学習におけるハイパーパラメータ最適化で発生する問題において,動作回数がトレーニング反復数よりもはるかに多い問題に触発され,カルマンフィルタを用いた探索自由探索法であるカルマンフィルタオブザーバビリティ依存探索法(KODE)を提案する。
本研究の主な貢献は,基礎となる線形ガウス力学系の可観測性に依存する提案手法の性能解析である。
我々は、KODEが選択した行動が、線形ガウス力学系の状態変数とどの程度密接に一致しているかを測る行動アライメントと、最も可能な報酬とKODEがサンプリングした報酬の累積差である後悔の2つの異なる指標を用いて、KODEを評価する。
そこで本研究では,線形ガウス力学系の可観測性に応じて,学習者の行動探索を暗黙的に促すことを実証する。
本手法は, 確率的マルチアームバンディットアルゴリズムと比較し, 理論的結果の検証を行う。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Restless Bandit Problem with Rewards Generated by a Linear Gaussian Dynamical System [0.0]
不確実性の下での意思決定は、頻繁に遭遇する基本的な問題であり、多重武装バンディット問題として定式化することができる。
本稿では,前述した報奨を線形に組み合わせて各アクションの次の報奨を予測する手法を提案する。
選択された前のアクションのシーケンスにかかわらず、事前に選択されたアクションに対してサンプリングされた報酬が、他のアクションの将来の報酬を予測するために使用できることを示す。
論文 参考訳(メタデータ) (2024-05-15T05:33:49Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Exploration via linearly perturbed loss minimisation [4.856378369489158]
本稿では,構造的バンディット問題に対する線形損失摂動(EVILL)による探索を紹介する。
一般化された線形包帯の場合、EVILLは乱れ歴史探索(PHE)に還元され、ランダムな乱れ報酬のトレーニングによって探索が行われる。
本稿では,従来のPHE方式では存在しないデータ依存摂動について提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:43Z) - Outlier-Insensitive Kalman Filtering: Theory and Applications [26.889182816155838]
本稿では,リニアカルマンフィルタの標準更新ステップの短い反復処理しか必要とせず,アウトリーチの有害な影響を軽減できるパラメータフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:33:28Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Data-Driven Response Regime Exploration and Identification for Dynamical
Systems [0.0]
Data-Driven Response Regime Exploration and Identification (DR$2$EI)は、動的システムの応答状態を特定し分類するための、新しく完全にデータ駆動の手法である。
DR$2$EIは教師なし学習アルゴリズムを用いてシステムの応答をシステム分類を容易にする埋め込み空間に変換する。
DR$2$EI法の性能評価を行った。
論文 参考訳(メタデータ) (2023-04-07T00:11:49Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。