論文の概要: Graph Backup: Data Efficient Backup Exploiting Markovian Transitions
- arxiv url: http://arxiv.org/abs/2205.15824v1
- Date: Tue, 31 May 2022 14:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:50:18.494133
- Title: Graph Backup: Data Efficient Backup Exploiting Markovian Transitions
- Title(参考訳): グラフバックアップ: マルコフ遷移を爆発させるデータ効率の良いバックアップ
- Authors: Zhengyao Jiang, Tianjun Zhang, Robert Kirk, Tim Rockt\"aschel, Edward
Grefenstette
- Abstract要約: データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
- 参考スコア(独自算出の注目度): 24.765707880860543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The successes of deep Reinforcement Learning (RL) are limited to settings
where we have a large stream of online experiences, but applying RL in the
data-efficient setting with limited access to online interactions is still
challenging. A key to data-efficient RL is good value estimation, but current
methods in this space fail to fully utilise the structure of the trajectory
data gathered from the environment. In this paper, we treat the transition data
of the MDP as a graph, and define a novel backup operator, Graph Backup, which
exploits this graph structure for better value estimation. Compared to
multi-step backup methods such as $n$-step $Q$-Learning and TD($\lambda$),
Graph Backup can perform counterfactual credit assignment and gives stable
value estimates for a state regardless of which trajectory the state is sampled
from. Our method, when combined with popular value-based methods, provides
improved performance over one-step and multi-step methods on a suite of
data-efficient RL benchmarks including MiniGrid, Minatar and Atari100K. We
further analyse the reasons for this performance boost through a novel
visualisation of the transition graphs of Atari games.
- Abstract(参考訳): deep reinforcement learning(rl)の成功は、オンライン体験の大規模なストリームがある設定に限定されていますが、オンラインインタラクションへのアクセスが制限されたデータ効率な設定でrlを適用することは依然として難しいのです。
データ効率の良いrlの鍵は良い値推定であるが、この空間における現在の手法では、環境から収集された軌道データの構造を十分に活用できていない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
n$-step $Q$-LearningやTD($\lambda$)といったマルチステップのバックアップメソッドと比較して、Graph Backupは偽のクレジット代入を実行でき、状態がどの軌道からサンプリングされたかに関わらず、安定した値推定を行うことができる。
一般的な値ベース手法と組み合わせることで,MiniGridやMinatar,Atari100Kなど,データ効率のよいRLベンチマークスイート上での一段階および多段階の手法による性能向上を実現している。
さらに,この性能向上の理由を,アタリゲームの遷移グラフの新たな視覚化を通じて解析する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs [27.169892145194638]
GraphCLIPは、強力なクロスドメインゼロ/フェーショット転送可能性を持つグラフ基盤モデルを学習するためのフレームワークである。
LLMの助けを借りて、大規模グラフ-土木ペアデータを生成し、キュレートする。
数ショットの学習では,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:40:52Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions [34.99034454081842]
大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
本研究では,勾配に基づくデータ評価手法であるインフルエンス関数に着目し,その拡張性を大幅に改善する。
既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXも導入しています。
論文 参考訳(メタデータ) (2024-05-22T19:39:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching [50.30124426442228]
大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。
そこで我々は,textbfCraftextbfTing textbfRationatextbf (textbfCTRL) という新しいグラフ手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:49:10Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。