論文の概要: Reachability-Aware Laplacian Representation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.13153v1
- Date: Mon, 24 Oct 2022 12:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:31:31.411707
- Title: Reachability-Aware Laplacian Representation in Reinforcement Learning
- Title(参考訳): 強化学習における到達可能性認識ラプラシアン表現
- Authors: Kaixin Wang, Kuangqi Zhou, Jiashi Feng, Bryan Hooi, Xinchao Wang
- Abstract要約: 本稿では,LapRepの各次元を適切にスケーリングすることで,Rachability-Aware Laplacian Representation (RA-LapRep)を導入する。
RA-LapRepはLapRepと比較して、理論的説明と実験結果の両方により、状態間到達性をよりよく捉えることができることを示す。
- 参考スコア(独自算出の注目度): 129.17226954657386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), Laplacian Representation (LapRep) is a
task-agnostic state representation that encodes the geometry of the
environment. A desirable property of LapRep stated in prior works is that the
Euclidean distance in the LapRep space roughly reflects the reachability
between states, which motivates the usage of this distance for reward shaping.
However, we find that LapRep does not necessarily have this property in
general: two states having small distance under LapRep can actually be far away
in the environment. Such mismatch would impede the learning process in reward
shaping. To fix this issue, we introduce a Reachability-Aware Laplacian
Representation (RA-LapRep), by properly scaling each dimension of LapRep.
Despite the simplicity, we demonstrate that RA-LapRep can better capture the
inter-state reachability as compared to LapRep, through both theoretical
explanations and experimental results. Additionally, we show that this
improvement yields a significant boost in reward shaping performance and also
benefits bottleneck state discovery.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) では、ラプラシアン表現 (LapRep) は環境の幾何学を符号化するタスクに依存しない状態表現である。
前述した LapRep の望ましい性質は、LapRep 空間におけるユークリッド距離が、状態間の到達性を概ね反映していることである。
しかし、LapRepは一般には必ずしもこの性質を持ちておらず、LapRepの下に小さな距離を持つ2つの状態は実際には環境から遠く離れている可能性がある。
このようなミスマッチは、報酬形成の学習プロセスを妨げる。
この問題を解決するために、LapRepの各次元を適切にスケーリングすることで、Reachability-Aware Laplacian Representation (RA-LapRep)を導入する。
単純さにもかかわらず、RA-LapRepはLapRepと比較して、理論的説明と実験結果の両方を通して、状態間の到達性をよりよく捉えることができることを示した。
さらに,この改善により,報酬形成性能が大幅に向上し,ボトルネック状態発見のメリットも期待できることを示した。
関連論文リスト
- PcLast: Discovering Plannable Continuous Latent States [24.78767380808056]
我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Locally Constrained Representations in Reinforcement Learning [5.865719902445064]
強化学習の成功は、環境観察から堅牢な表現を学ぶ能力に大きく依存している。
ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。
本稿では, 局所的に制約された表現を提案する。そこでは, 補助的損失により, 隣接する状態の表現によって状態表現が予測可能となる。
論文 参考訳(メタデータ) (2022-09-20T03:36:39Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Towards Better Laplacian Representation in Reinforcement Learning with
Generalized Graph Drawing [88.22538267731733]
ラプラシアン表現は、状態に対する簡潔で情報的な表現を提供する。
近年の研究はスペクトルグラフ描画の目的を最小化することを提案しているが、固有ベクトル以外の大域最小化器は無限に多数存在する。
学習したラプラシア表現がより探索的な選択肢とより良い報酬形成をもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-12T16:14:02Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - RepPoints V2: Verification Meets Regression for Object Detection [65.120827759348]
本稿ではRepPointsのローカライズ予測に検証タスクを導入する。
RepPoints v2は、オリジナルのRepPointsよりも約2.0mAPの一貫性のある改善を提供する。
提案手法は、インスタンスセグメンテーションのようなアプリケーションと同様に、他のオブジェクト検出フレームワークをより高めることができることを示す。
論文 参考訳(メタデータ) (2020-07-16T17:57:08Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。