論文の概要: Identifying the Best Arm in the Presence of Global Environment Shifts
- arxiv url: http://arxiv.org/abs/2408.12581v1
- Date: Thu, 22 Aug 2024 17:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:52:30.696850
- Title: Identifying the Best Arm in the Presence of Global Environment Shifts
- Title(参考訳): 地球環境変化における最良腕の同定
- Authors: Phurinut Srisawad, Juergen Branke, Long Tran-Thanh,
- Abstract要約: 本稿では,非定常帯域設定におけるBest-Arm識別問題について定式化する。
予算の固定化を目標として、環境の変化にまたがる最適な腕を特定することを目的とする。
我々は、各環境における全腕にわたるグローバルシフトに関する情報を活用するアロケーションポリシーLinLUCBを提案する。
- 参考スコア(独自算出の注目度): 14.075415609709127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper formulates a new Best-Arm Identification problem in the non-stationary stochastic bandits setting, where the means of all arms are shifted in the same way due to a global influence of the environment. The aim is to identify the unique best arm across environmental change given a fixed total budget. While this setting can be regarded as a special case of Adversarial Bandits or Corrupted Bandits, we demonstrate that existing solutions tailored to those settings do not fully utilise the nature of this global influence, and thus, do not work well in practice (despite their theoretical guarantees). To overcome this issue, in this paper we develop a novel selection policy that is consistent and robust in dealing with global environmental shifts. We then propose an allocation policy, LinLUCB, which exploits information about global shifts across all arms in each environment. Empirical tests depict a significant improvement in our policies against other existing methods.
- Abstract(参考訳): 本稿では,非定常確率的バンディット設定において,環境のグローバルな影響により,すべてのアームの手段が同じ方法でシフトする,新たなベストアーム同定問題を定式化する。
目標は、予算の固定化によって、環境の変化にまたがる独特なベストアームを識別することである。
この設定は、Adversarial Bandits(英語版)やCorrupted Bandits(英語版)の特殊な場合と見なすことができるが、これらの設定に適合した既存のソリューションが、このグローバルな影響の性質を完全に活用するわけではなく、したがって(理論的な保証にもかかわらず)実際にうまく機能しないことを示す。
この問題を克服するため,本稿では,グローバルな環境変化に対応する上で,一貫性とロバスト性を備えた新しい選択政策を策定する。
次に、各環境における全腕にわたるグローバルシフトに関する情報を活用するアロケーションポリシーLinLUCBを提案する。
実証テストは、既存の他の方法に対するポリシーの大幅な改善を描いています。
関連論文リスト
- Prompt-Guided Environmentally Consistent Adversarial Patch [17.268378878489795]
物理的世界の敵対的攻撃は、顔認識や自律運転のような視覚ベースのシステムのセキュリティに重大な脅威をもたらす。
既存の敵パッチ法は主に攻撃性能の改善に重点を置いているが、人間によって容易に検出できるパッチを生成することが多い。
本稿では, 視覚的自然性と環境の整合性の両方に対処する, 対向パッチ生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-15T09:30:47Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Free Lunch for Domain Adversarial Training: Environment Label Smoothing [82.85757548355566]
環境ラベル平滑化 (ELS) により, 騒音環境ラベルに対するトレーニング安定性, 局所収束性, 堅牢性を向上する。
特に環境ラベルが騒がしい場合, 領域の一般化・適応タスクについて, 最先端の成果が得られる。
論文 参考訳(メタデータ) (2023-02-01T02:55:26Z) - An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。
本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文 参考訳(メタデータ) (2022-12-24T13:43:39Z) - Environment Optimization for Multi-Agent Navigation [11.473177123332281]
本研究の目的は,システムレベルの最適化問題において,環境を決定変数として考えることである。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。
論文 参考訳(メタデータ) (2022-09-22T19:22:16Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits [14.817218449140338]
データストリーム上の文献からの適応的ウィンドウ化技術を活用した帯域幅アルゴリズムである適応的リセット帯域幅(ADR-bandit)を導入する。
ADR-banditは,大域的な変化と呼ばれる急激な変化や漸進的な変化が発生すると,ほぼ最適な性能を示すことを示す。
実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-23T19:02:52Z) - Invariant Policy Learning: A Causal Perspective [4.610695415962731]
基礎となるメカニズムの変更を可能にするマルチ環境コンテキストバンドレットを提案する。
本研究の結果は, 環境変化問題に対する解決策を提供するだけでなく, 因果関係, 不変性, 文脈帯域間の具体的な関係を確立する。
論文 参考訳(メタデータ) (2021-06-01T21:20:48Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。