論文の概要: An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context
- arxiv url: http://arxiv.org/abs/2212.12735v1
- Date: Sat, 24 Dec 2022 13:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:50:30.024646
- Title: An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context
- Title(参考訳): 経時的安定な非定常環境に対する適応的深部RL法
- Authors: Xiaoyu Chen, Xiangming Zhu, Yufeng Zheng, Pushi Zhang, Li Zhao, Wenxue
Cheng, Peng Cheng, Yongqiang Xiong, Tao Qin, Jianyu Chen, Tie-Yan Liu
- Abstract要約: 未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。
本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
- 参考スコア(独自算出の注目度): 109.49663559151377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key challenges in deploying RL to real-world applications is to
adapt to variations of unknown environment contexts, such as changing terrains
in robotic tasks and fluctuated bandwidth in congestion control. Existing works
on adaptation to unknown environment contexts either assume the contexts are
the same for the whole episode or assume the context variables are Markovian.
However, in many real-world applications, the environment context usually stays
stable for a stochastic period and then changes in an abrupt and unpredictable
manner within an episode, resulting in a segment structure, which existing
works fail to address. To leverage the segment structure of piecewise stable
context in real-world applications, in this paper, we propose a
\textit{\textbf{Se}gmented \textbf{C}ontext \textbf{B}elief \textbf{A}ugmented
\textbf{D}eep~(SeCBAD)} RL method. Our method can jointly infer the belief
distribution over latent context with the posterior over segment length and
perform more accurate belief context inference with observed data within the
current context segment. The inferred belief context can be leveraged to
augment the state, leading to a policy that can adapt to abrupt variations in
context. We demonstrate empirically that SeCBAD can infer context segment
length accurately and outperform existing methods on a toy grid world
environment and Mujuco tasks with piecewise-stable context.
- Abstract(参考訳): 実世界のアプリケーションにRLをデプロイする上で重要な課題の1つは、ロボットタスクにおける地形の変化や渋滞制御における帯域幅の変化など、未知の環境コンテキストに適応することである。
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのいずれかである。
しかし、現実の多くのアプリケーションでは、環境コンテキストは確率的な期間安定し、エピソード内で突然かつ予測不可能な方法で変化し、結果としてセグメント構造となり、既存の作業には対処できない。
本稿では,実世界のアプリケーションにおいて分割安定なコンテキストのセグメント構造を利用するために, \textit{\textbf{se}gmented \textbf{c}ontext \textbf{b}elief \textbf{a}ugmented \textbf{d}eep~(secbad)} rl法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,現在のコンテキストセグメント内の観測データによるより正確な信念コンテキスト推論を行う。
推論された信念のコンテキストは、状態の強化に利用され、コンテキストの突然の変動に適応できるポリシに繋がる。
我々は, secbad が, トイグリッドの世界環境やmujuco タスクにおいて, コンテキストセグメント長を精度良く推定し, 既存の手法よりも優れることを示す。
関連論文リスト
- ContextDet: Temporal Action Detection with Adaptive Context Aggregation [47.84334557998388]
時間的行動検出(TAD)のための単一ステージContextDetフレームワークを提案する。
我々のモデルは、ピラミッド適応型コンテキスト拡張(ACA)アーキテクチャ、長いコンテキストのキャプチャ、行動識別性の改善を特徴としている。
ACAピラミッド全体にわたるこれらの大きなカーネルの長さを変えることで、我々のモデルは軽量で効果的なコンテキストアグリゲーションとアクション識別を提供する。
論文 参考訳(メタデータ) (2024-10-20T04:28:19Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Context is Environment [45.88558331853988]
研究者は環境を文脈として考慮し、学習の力を利用するべきである。
ドメインの研究者は、コンテキストを適応学習に向けたデータ構造を改善する環境として考慮すべきである。
論文 参考訳(メタデータ) (2023-09-18T15:51:27Z) - State Regularized Policy Optimization on Data with Dynamics Shift [25.412472472457324]
多くの実世界のシナリオでは、強化学習(RL)アルゴリズムは、動的シフトを持つデータ、すなわち、異なる環境ダイナミクスを持つデータに基づいて訓練される。
本稿では, 同様の構造と動的に異なる多くの環境において, 最適ポリシが定常状態分布と類似していることを見出した。
このような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(textbfS textbfRegularized textbfPolicy textbfOptimization)アルゴリズムにつながる。
論文 参考訳(メタデータ) (2023-06-06T10:06:09Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Reinforcement Learning in Presence of Discrete Markovian Context
Evolution [7.467644044726776]
a) 直接観測不可能な文脈の未知の有限個の数、b) エピソード中に突然発生する(不連続な)文脈変化、c) マルコフ的文脈進化を特徴とする文脈依存強化学習環境を考える。
我々はモデル学習に先立って、粘着した階層的ディリクレプロセス(HDP)を適用する。
これら2つのコンポーネントの組み合わせによって、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することが可能である、と我々は主張する。
論文 参考訳(メタデータ) (2022-02-14T08:52:36Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。