論文の概要: Invariant Policy Learning: A Causal Perspective
- arxiv url: http://arxiv.org/abs/2106.00808v1
- Date: Tue, 1 Jun 2021 21:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:49:35.054185
- Title: Invariant Policy Learning: A Causal Perspective
- Title(参考訳): 不変政策学習:因果的視点
- Authors: Sorawit Saengkyongam, Nikolaj Thams, Jonas Peters and Niklas Pfister
- Abstract要約: 基礎となるメカニズムの変更を可能にするマルチ環境コンテキストバンドレットを提案する。
本研究の結果は, 環境変化問題に対する解決策を提供するだけでなく, 因果関係, 不変性, 文脈帯域間の具体的な関係を確立する。
- 参考スコア(独自算出の注目度): 4.610695415962731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, contextual bandit and reinforcement learning algorithms
have been successfully used in various interactive learning systems such as
online advertising, recommender systems, and dynamic pricing. However, they
have yet to be widely adopted in high-stakes application domains, such as
healthcare. One reason may be that existing approaches assume that the
underlying mechanisms are static in the sense that they do not change over time
or over different environments. In many real world systems, however, the
mechanisms are subject to shifts across environments which may invalidate the
static environment assumption. In this paper, we tackle the problem of
environmental shifts under the framework of offline contextual bandits. We view
the environmental shift problem through the lens of causality and propose
multi-environment contextual bandits that allow for changes in the underlying
mechanisms. We adopt the concept of invariance from the causality literature
and introduce the notion of policy invariance. We argue that policy invariance
is only relevant if unobserved confounders are present and show that, in that
case, an optimal invariant policy is guaranteed, under certain assumptions, to
generalize across environments. Our results do not only provide a solution to
the environmental shift problem but also establish concrete connections among
causality, invariance and contextual bandits.
- Abstract(参考訳): 過去10年間で、オンライン広告、レコメンダシステム、動的価格などの様々なインタラクティブな学習システムにおいて、文脈的帯域幅と強化学習アルゴリズムがうまく使われてきた。
しかし、医療などの高度なアプリケーション領域では、まだ広く採用されていない。
一つの理由は、既存のアプローチが、基盤となるメカニズムが、時間とともに異なる環境にまたがって変化しないという意味で静的であると仮定しているからかもしれない。
しかし、多くの現実世界のシステムでは、メカニズムは静的環境の仮定を無効にする可能性のある環境にまたがるシフトの対象となる。
本稿では,オフラインの文脈的帯域幅の枠組みの下での環境変化問題に対処する。
我々は,因果関係のレンズを通して環境変化の問題を考察し,基盤メカニズムの変化を可能にするマルチ環境コンテキストバンディットを提案する。
因果関係文献から不変性の概念を採用し,政策不変性の概念を導入する。
政策不変性は、観測されていない共同創設者が存在する場合にのみ重要であり、その場合、ある仮定の下で最適な不変性が環境全体にわたって一般化されることを示す。
本研究は,環境変化問題に対する解決策を提供するだけでなく,因果関係,不変性,文脈的バンディットの具体的関係を確立する。
関連論文リスト
- Identifying the Best Arm in the Presence of Global Environment Shifts [14.075415609709127]
本稿では,非定常帯域設定におけるBest-Arm識別問題について定式化する。
予算の固定化を目標として、環境の変化にまたがる最適な腕を特定することを目的とする。
我々は、各環境における全腕にわたるグローバルシフトに関する情報を活用するアロケーションポリシーLinLUCBを提案する。
論文 参考訳(メタデータ) (2024-08-22T17:47:01Z) - A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Towards Fair Disentangled Online Learning for Changing Environments [28.207499975916324]
オンライン学習における環境変化は、学習パラメータが環境に固有の部分的変化に起因していると論じる。
本稿では,各時点に収集したデータを2つの表現で切り離すことができるという仮定の下で,新しいアルゴリズムを提案する。
新たな後悔は、動的および静的な後悔の指標の混合形式と、公平性に配慮した長期的制約を伴って提案される。
論文 参考訳(メタデータ) (2023-05-31T19:04:16Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。