論文の概要: Factored Adaptation for Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.16582v1
- Date: Wed, 30 Mar 2022 18:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:53:07.560554
- Title: Factored Adaptation for Non-Stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習のための因子適応
- Authors: Fan Feng, Biwei Huang, Kun Zhang, Sara Magliacane
- Abstract要約: 本研究では,非定常RL(FANS-RL)に対するFactered Adaptationを提案し,環境の非定常性に対処する。
FANS-RLは、遷移力学と報酬関数に影響を与える個々の潜伏変化因子を明示的に学習する。
FANS-RLは、報酬、潜伏状態表現のコンパクト性、ロバスト性などの点で既存のアプローチよりも優れることを示す。
- 参考スコア(独自算出の注目度): 17.95935964452725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dealing with non-stationarity in environments (i.e., transition dynamics) and
objectives (i.e., reward functions) is a challenging problem that is crucial in
real-world applications of reinforcement learning (RL). Most existing
approaches only focus on families of stationary MDPs, in which the
non-stationarity is episodic, i.e., the change is only possible across
episodes. The few works that do consider non-stationarity without a specific
boundary, i.e., also allow for changes within an episode, model the changes
monolithically in a single shared embedding vector. In this paper, we propose
Factored Adaptation for Non-Stationary RL (FANS-RL), a factored adaption
approach that explicitly learns the individual latent change factors affecting
the transition dynamics and reward functions. FANS-RL learns jointly the
structure of a factored MDP and a factored representation of the time-varying
change factors, as well as the specific state components that they affect, via
a factored non-stationary variational autoencoder. Through this general
framework, we can consider general non-stationary scenarios with different
changing function types and changing frequency. Experimental results
demonstrate that FANS-RL outperforms existing approaches in terms of rewards,
compactness of the latent state representation and robustness to varying
degrees of non-stationarity.
- Abstract(参考訳): 環境における非定常性(すなわち遷移力学)と目的(すなわち報酬関数)に対処することは、強化学習(RL)の現実的な応用において重要な課題である。
既存のアプローチのほとんどは、静止的なMDPのファミリーのみに焦点を当てており、非定常性はエピソジック、すなわち、この変化はエピソード間でのみ可能である。
特定の境界のない非定常性を考える数少ない作品、すなわちエピソード内での変更を可能にし、単一の共有埋め込みベクトルでモノリシックに変化をモデル化する。
本稿では,遷移ダイナミクスと報酬関数に影響を与える個々の潜在変化因子を明示的に学習する因子適応アプローチである非定常rl(fans-rl)に対する因子適応を提案する。
FANS-RLは、非定常変分オートエンコーダを介して、時間変化因子の構造と時間変化因子の因子表現と、それらが影響する特定の状態成分を共同で学習する。
この一般的なフレームワークを通じて、異なる関数タイプと周波数変化を持つ一般的な非定常シナリオを考えることができる。
実験結果から,fans-rlは非定常性の異なる程度に対して,既往の報酬,潜在状態表現のコンパクト性,頑健性を上回っていることがわかった。
関連論文リスト
- Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。
この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。
本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文 参考訳(メタデータ) (2024-09-05T00:38:27Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Learning Generalizable Agents via Saliency-Guided Features Decorrelation [25.19044461705711]
特徴と判断の相関をなくすために,サリエンシガイド機能デコレーションを提案する。
RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。
サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化する。
論文 参考訳(メタデータ) (2023-10-08T09:24:43Z) - Off-Policy Evaluation for Action-Dependent Non-Stationary Environments [28.263486678914656]
シーケンシャルな意思決定の方法は、根底にある決定プロセスが定常であるという基本的な仮定に基づいて構築されることが多い。
これは、実世界の問題は外部要因(パッシブ非定常性)、システム自体との相互作用によって引き起こされる変化(アクティブ非定常性)、あるいはその両方(ハイブリッド非定常性)によってしばしば変化するため、そのような方法の適用を制限する。
本稿では,反実的推論の二重適用と新たな重み付き器量変量回帰を用いたアルゴリズムOPENを提案する。
論文 参考訳(メタデータ) (2023-01-24T22:21:16Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Disentanglement of Correlated Factors via Hausdorff Factorized Support [53.23740352226391]
本稿では,因子分布ではなく,因子化支援を助長する緩やかな解離基準,HFS(Hausdorff Factorized Support)基準を提案する。
本研究では,HFSを用いることにより,様々な相関設定やベンチマークにおいて,接地構造因子の絡み合いと回復が一貫して促進されることを示す。
論文 参考訳(メタデータ) (2022-10-13T20:46:42Z) - Out-of-distribution Generalization with Causal Invariant Transformations [17.18953986654873]
本研究では,因果的特徴を明示的に回復することなく,OOD問題に対処する。
不変因果機構の設定の下で、理論的には、そのような変換がすべて利用可能であれば、最小限の最適モデルを学ぶことができる。
これらの因果不変変換の完全な集合が非現実的であることを知ることは、これらの変換のサブセットのみを知るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-03-22T08:04:38Z) - Variational Causal Networks: Approximate Bayesian Inference over Causal
Structures [132.74509389517203]
離散DAG空間上の自己回帰分布をモデル化したパラメトリック変分族を導入する。
実験では,提案した変分後部が真の後部を良好に近似できることを示した。
論文 参考訳(メタデータ) (2021-06-14T17:52:49Z) - Invariance Principle Meets Information Bottleneck for
Out-of-Distribution Generalization [77.24152933825238]
線形分類タスクには分布シフトの強い制限が必要であり、そうでなければ OOD の一般化は不可能であることを示す。
不変な特徴がラベルに関するすべての情報をキャプチャし、そうでなければ既存の成功を保っている場合、情報ボトルネックの形式が重要な障害に対処するのに役立つことを証明します。
論文 参考訳(メタデータ) (2021-06-11T20:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。