論文の概要: Efficient Algorithms for Learning to Control Bandits with Unobserved
Contexts
- arxiv url: http://arxiv.org/abs/2202.00867v1
- Date: Wed, 2 Feb 2022 04:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:47:45.544791
- Title: Efficient Algorithms for Learning to Control Bandits with Unobserved
Contexts
- Title(参考訳): 非観測文脈で帯域を制御できる効率的なアルゴリズム
- Authors: Hongju Park and Mohamad Kazem Shirani Faradonbeh
- Abstract要約: そこで本研究では,不完全なコンテキスト観測を行うバンドに対して,実装可能な後部サンプリングアルゴリズムを提案する。
提案アルゴリズムは,ノイズの多い不完全な観測から学習の効率性を明らかにし,それに応じて行動を取る。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contextual bandits are widely-used in the study of learning-based control
policies for finite action spaces. While the problem is well-studied for
bandits with perfectly observed context vectors, little is known about the case
of imperfectly observed contexts. For this setting, existing approaches are
inapplicable and new conceptual and technical frameworks are required. We
present an implementable posterior sampling algorithm for bandits with
imperfect context observations and study its performance for learning optimal
decisions. The provided numerical results relate the performance of the
algorithm to different quantities of interest including the number of arms,
dimensions, observation matrices, posterior rescaling factors, and
signal-to-noise ratios. In general, the proposed algorithm exposes efficiency
in learning from the noisy imperfect observations and taking actions
accordingly. Enlightening understandings the analyses provide as well as
interesting future directions it points to, are discussed as well.
- Abstract(参考訳): コンテキストバンディットは有限作用空間に対する学習に基づく制御ポリシーの研究で広く使われている。
この問題は、完全に観察された文脈ベクトルを持つ包帯に対してよく研究されているが、不完全な観測された文脈の場合についてはほとんど知られていない。
この設定では、既存のアプローチは適用不可能であり、新しい概念的および技術的なフレームワークが必要である。
不完全な文脈観察を有するバンディットに対して実装可能な後方サンプリングアルゴリズムを提案し,最適決定の学習におけるその性能について検討する。
得られた数値は, アルゴリズムの性能を, アーム数, 寸法, 観測行列, 後方再スケーリング係数, 信号対雑音比など, 様々な利害関係に関連付ける。
一般に,提案アルゴリズムはノイズの不完全な観測から学習の効率性を明らかにする。
分析の啓蒙的な理解と、それが指摘する今後の興味深い方向性も議論されている。
関連論文リスト
- Optimal cross-learning for contextual bandits with unknown context
distributions [28.087360479901978]
本稿では,バルセイロ等のクロスラーニング環境において,文脈的包括的アルゴリズムを設計する際の問題点について考察する。
コンテクスト数によらずに$widetildeO(sqrtTK)$というほぼ厳密な(対数的要因まで)後悔境界を持つ効率的なアルゴリズムを提供する。
アルゴリズムのコアとなるのは,複数のエポックにまたがるアルゴリズムの実行をコーディネートする新しい手法である。
論文 参考訳(メタデータ) (2024-01-03T18:02:13Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes [6.729108277517129]
本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。
開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
論文 参考訳(メタデータ) (2023-07-29T08:52:35Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Performance Analysis of Fractional Learning Algorithms [32.21539962359158]
従来のアルゴリズムよりも格段に優越性が高いかどうかは定かでないが、その性能が広範に分析されることはなかったため神話である。
本稿では,最小平均二乗および最急降下アルゴリズムの分数変分を厳密に解析する。
学習アルゴリズムの性能に関するその起源と結果について論じ,素早い準備の整った治療法を提案する。
論文 参考訳(メタデータ) (2021-10-11T12:06:44Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Efficient Contextual Bandits with Continuous Actions [102.64518426624535]
我々は、未知の構造を持つ連続的な動作を持つ文脈的包帯に対する計算的に抽出可能なアルゴリズムを作成する。
我々の還元型アルゴリズムは、ほとんどの教師付き学習表現で構成される。
論文 参考訳(メタデータ) (2020-06-10T19:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。