論文の概要: Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17830v1
- Date: Fri, 23 May 2025 12:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.074114
- Title: Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning
- Title(参考訳): オンライン強化学習における状態空間被覆のための分散ロバスト自動符号化
- Authors: Nicolas Castanet, Olivier Sigaud, Sylvain Lamprier,
- Abstract要約: GCRL(Goal-Conditioned Reinforcement Learning)は、エージェントが自律的に多様な行動を取得することを可能にする。
エージェントが探索中に表現を学ぶオンライン環境では、潜伏空間はエージェントのポリシーによって進化する。
- 参考スコア(独自算出の注目度): 16.15673339648566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-Conditioned Reinforcement Learning (GCRL) enables agents to autonomously acquire diverse behaviors, but faces major challenges in visual environments due to high-dimensional, semantically sparse observations. In the online setting, where agents learn representations while exploring, the latent space evolves with the agent's policy, to capture newly discovered areas of the environment. However, without incentivization to maximize state coverage in the representation, classical approaches based on auto-encoders may converge to latent spaces that over-represent a restricted set of states frequently visited by the agent. This is exacerbated in an intrinsic motivation setting, where the agent uses the distribution encoded in the latent space to sample the goals it learns to master. To address this issue, we propose to progressively enforce distributional shifts towards a uniform distribution over the full state space, to ensure a full coverage of skills that can be learned in the environment. We introduce DRAG (Distributionally Robust Auto-Encoding for GCRL), a method that combines the $\beta$-VAE framework with Distributionally Robust Optimization. DRAG leverages an adversarial neural weighter of training states of the VAE, to account for the mismatch between the current data distribution and unseen parts of the environment. This allows the agent to construct semantically meaningful latent spaces beyond its immediate experience. Our approach improves state space coverage and downstream control performance on hard exploration environments such as mazes and robotic control involving walls to bypass, without pre-training nor prior environment knowledge.
- Abstract(参考訳): GCRL(Goal-Conditioned Reinforcement Learning)は、エージェントが自律的に多様な行動を取得することを可能にするが、高次元のセマンティックスな観察のために視覚環境において大きな課題に直面している。
エージェントが探索中に表現を学習するオンライン環境では、潜伏空間はエージェントのポリシーに従って進化し、新たに発見された環境領域を捕捉する。
しかし、表現における状態カバレッジを最大化するためのインセンティブがなければ、オートエンコーダに基づく古典的なアプローチは、エージェントが頻繁に訪れる制限された状態の集合を過剰に表現する潜在空間に収束する可能性がある。
これは本質的なモチベーション設定で悪化し、エージェントは潜在空間にエンコードされた分布を使って、マスターするために学習した目標をサンプリングする。
この問題に対処するため,本研究では,全状態空間上の一様分布に対する分布シフトを段階的に実施し,環境において学習可能なスキルの完全なカバレッジを確保することを提案する。
DRAG(Distributionally Robust Auto-Encoding for GCRL)は,$\beta$-VAEフレームワークと分散ロバスト最適化を組み合わせた手法である。
DRAGは、VAEのトレーニング状態の対向神経重み付けを活用し、現在のデータ分布と環境の見えない部分とのミスマッチを考慮に入れている。
これによりエージェントは、その即時体験を超えて意味論的に意味のある潜在空間を構築することができる。
提案手法は,事前学習や事前の環境知識を必要とせず,迷路やロボットによる壁のバイパスを含むハード探索環境における状態空間のカバレッジと下流制御性能を向上させる。
関連論文リスト
- Grammarization-Based Grasping with Deep Multi-Autoencoder Latent Space Exploration by Reinforcement Learning Agent [0.0]
本稿では,高次元の目標とグリップの特徴を圧縮するアイデアに基づく,ロボットグルーピングのための新しいフレームワークを提案する。
提案手法は,対象とグリップに専用の3つのオートエンコーダと,その潜在表現を融合させる第3のオートエンコーダを用いて,把握を簡略化する。
論文 参考訳(メタデータ) (2024-11-13T12:26:08Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation [78.38321096371106]
先行技術はラベル付きソースとラベルなしターゲットの両方への同時アクセスを前提としており、ソースフリー適応を必要とするシナリオには適さない。
本研究では、タスクをa)ソースのみのドメイン一般化とb)ソースフリーなターゲット適応の2つに分割することで、ソースフリーのDAを可能にする。
本研究では,空間的不規則性を回避し,擬似ラベル品質を向上する条件付き事前強化オートエンコーダを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:18:59Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Exploring Dynamic Context for Multi-path Trajectory Prediction [33.66335553588001]
動的コンテキストネットワーク(DCENet)という新しいフレームワークを提案する。
本フレームワークでは,エージェント間の空間的コンテキストを自己注意型アーキテクチャを用いて探索する。
学習した空間的時間的文脈に基づいて、各エージェントに対する将来の軌跡のセットを条件付きで予測する。
論文 参考訳(メタデータ) (2020-10-30T13:39:20Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。