論文の概要: Graph Backup: Data Efficient Backup Exploiting Markovian Transitions
- arxiv url: http://arxiv.org/abs/2205.15824v1
- Date: Tue, 31 May 2022 14:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:50:18.494133
- Title: Graph Backup: Data Efficient Backup Exploiting Markovian Transitions
- Title(参考訳): グラフバックアップ: マルコフ遷移を爆発させるデータ効率の良いバックアップ
- Authors: Zhengyao Jiang, Tianjun Zhang, Robert Kirk, Tim Rockt\"aschel, Edward
Grefenstette
- Abstract要約: データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
- 参考スコア(独自算出の注目度): 24.765707880860543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The successes of deep Reinforcement Learning (RL) are limited to settings
where we have a large stream of online experiences, but applying RL in the
data-efficient setting with limited access to online interactions is still
challenging. A key to data-efficient RL is good value estimation, but current
methods in this space fail to fully utilise the structure of the trajectory
data gathered from the environment. In this paper, we treat the transition data
of the MDP as a graph, and define a novel backup operator, Graph Backup, which
exploits this graph structure for better value estimation. Compared to
multi-step backup methods such as $n$-step $Q$-Learning and TD($\lambda$),
Graph Backup can perform counterfactual credit assignment and gives stable
value estimates for a state regardless of which trajectory the state is sampled
from. Our method, when combined with popular value-based methods, provides
improved performance over one-step and multi-step methods on a suite of
data-efficient RL benchmarks including MiniGrid, Minatar and Atari100K. We
further analyse the reasons for this performance boost through a novel
visualisation of the transition graphs of Atari games.
- Abstract(参考訳): deep reinforcement learning(rl)の成功は、オンライン体験の大規模なストリームがある設定に限定されていますが、オンラインインタラクションへのアクセスが制限されたデータ効率な設定でrlを適用することは依然として難しいのです。
データ効率の良いrlの鍵は良い値推定であるが、この空間における現在の手法では、環境から収集された軌道データの構造を十分に活用できていない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
n$-step $Q$-LearningやTD($\lambda$)といったマルチステップのバックアップメソッドと比較して、Graph Backupは偽のクレジット代入を実行でき、状態がどの軌道からサンプリングされたかに関わらず、安定した値推定を行うことができる。
一般的な値ベース手法と組み合わせることで,MiniGridやMinatar,Atari100Kなど,データ効率のよいRLベンチマークスイート上での一段階および多段階の手法による性能向上を実現している。
さらに,この性能向上の理由を,アタリゲームの遷移グラフの新たな視覚化を通じて解析する。
関連論文リスト
- Two Trades is not Baffled: Condensing Graph via Crafting Rational
Gradient Matching [51.974926782636985]
大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。
そこで我々は,textbfCraftextbfTing textbfRationatextbf (textbfCTRL) という新しいグラフ手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:49:10Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Features Based Adaptive Augmentation for Graph Contrastive Learning [0.0]
自己監督学習は、グラフ表現学習における高価なアノテーションの必要性を排除することを目的としている。
機能に基づく適応拡張(FebAA)アプローチを導入し、潜在的に影響力のある機能を特定し保存する。
8つのグラフ表現学習のベンチマークデータセットにおいて,GRACEとBGRLの精度を向上させることに成功した。
論文 参考訳(メタデータ) (2022-07-05T03:41:20Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。