論文の概要: Reinforcement Learning in Presence of Discrete Markovian Context
Evolution
- arxiv url: http://arxiv.org/abs/2202.06557v1
- Date: Mon, 14 Feb 2022 08:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:50:49.319846
- Title: Reinforcement Learning in Presence of Discrete Markovian Context
Evolution
- Title(参考訳): 離散マルコフ文脈進化の存在下での強化学習
- Authors: Hang Ren, Aivar Sootla, Taher Jafferjee, Junxiao Shen, Jun Wang and
Haitham Bou-Ammar
- Abstract要約: a) 直接観測不可能な文脈の未知の有限個の数、b) エピソード中に突然発生する(不連続な)文脈変化、c) マルコフ的文脈進化を特徴とする文脈依存強化学習環境を考える。
我々はモデル学習に先立って、粘着した階層的ディリクレプロセス(HDP)を適用する。
これら2つのコンポーネントの組み合わせによって、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することが可能である、と我々は主張する。
- 参考スコア(独自算出の注目度): 7.467644044726776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a context-dependent Reinforcement Learning (RL) setting, which is
characterized by: a) an unknown finite number of not directly observable
contexts; b) abrupt (discontinuous) context changes occurring during an
episode; and c) Markovian context evolution. We argue that this challenging
case is often met in applications and we tackle it using a Bayesian approach
and variational inference. We adapt a sticky Hierarchical Dirichlet Process
(HDP) prior for model learning, which is arguably best-suited for Markov
process modeling. We then derive a context distillation procedure, which
identifies and removes spurious contexts in an unsupervised fashion. We argue
that the combination of these two components allows to infer the number of
contexts from data thus dealing with the context cardinality assumption. We
then find the representation of the optimal policy enabling efficient policy
learning using off-the-shelf RL algorithms. Finally, we demonstrate empirically
(using gym environments cart-pole swing-up, drone, intersection) that our
approach succeeds where state-of-the-art methods of other frameworks fail and
elaborate on the reasons for such failures.
- Abstract(参考訳): 我々は,コンテキスト依存強化学習(rl)の設定について考察する。
a) 直接観測可能な文脈の未知の有限数
b) エピソード中に発生する突然の(不連続な)文脈変化
c) マルコフ的文脈進化。
我々は、この挑戦的なケースがアプリケーションでしばしば満たされ、ベイズ的アプローチと変分推論を用いてそれに取り組むことを論じる。
私たちは、モデル学習に先立って、スティッキーな階層型ディリクレプロセス(hdp)を採用しています。
次に,無監督の方法でスプリアスなコンテキストを特定し除去する,コンテキスト蒸留手順を導出する。
これら2つのコンポーネントの組み合わせは、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することを可能にする。
次に、既成RLアルゴリズムを用いて効率的なポリシー学習を可能にする最適ポリシーの表現を見出す。
最後に、我々のアプローチは、他のフレームワークの最先端の手法が失敗した場合に成功し、そのような失敗の理由を詳しく説明している。
関連論文リスト
- Learning Rules Explaining Interactive Theorem Proving Tactic Prediction [5.229806149125529]
この問題を帰納論理プログラミング(ILP)タスクとして表現する。
ILP表現を使用することで、追加で計算コストの高いプロパティをエンコードすることで、機能空間を豊かにしました。
我々は、このリッチな特徴空間を用いて、与えられた証明状態に戦術がいつ適用されたかを説明する規則を学ぶ。
論文 参考訳(メタデータ) (2024-11-02T09:18:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - A Reinforcement Learning Approach to Domain-Knowledge Inclusion Using
Grammar Guided Symbolic Regression [0.0]
強化型文法誘導記号回帰法(RBG2-SR)を提案する。
RBG2-SRは、文脈自由文法を強化作用空間として用いて、表現空間をドメイン知識で制約する。
提案手法は, ベンチマーク上の他の最先端手法と競合し, 最良のエラー・複雑性トレードオフを提供することを示す。
論文 参考訳(メタデータ) (2022-02-09T10:13:14Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。