論文の概要: Highway Graph to Accelerate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.11727v1
- Date: Mon, 20 May 2024 02:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:33:17.413415
- Title: Highway Graph to Accelerate Reinforcement Learning
- Title(参考訳): 強化学習を加速するハイウェイグラフ
- Authors: Zidu Yin, Zhen Zhang, Dong Gong, Stefano V. Albrecht, Javen Q. Shi,
- Abstract要約: 状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。
ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
- 参考スコア(独自算出の注目度): 18.849312069946993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) algorithms often suffer from low training efficiency. A strategy to mitigate this issue is to incorporate a model-based planning algorithm, such as Monte Carlo Tree Search (MCTS) or Value Iteration (VI), into the environmental model. The major limitation of VI is the need to iterate over a large tensor. These still lead to intensive computations. We focus on improving the training efficiency of RL algorithms by improving the efficiency of the value learning process. For the deterministic environments with discrete state and action spaces, a non-branching sequence of transitions moves the agent without deviating from intermediate states, which we call a highway. On such non-branching highways, the value-updating process can be merged as a one-step process instead of iterating the value step-by-step. Based on this observation, we propose a novel graph structure, named highway graph, to model the state transition. Our highway graph compresses the transition model into a concise graph, where edges can represent multiple state transitions to support value propagation across multiple time steps in each iteration. We thus can obtain a more efficient value learning approach by facilitating the VI algorithm on highway graphs. By integrating the highway graph into RL (as a model-based off-policy RL method), the RL training can be remarkably accelerated in the early stages (within 1 million frames). Comparison against various baselines on four categories of environments reveals that our method outperforms both representative and novel model-free and model-based RL algorithms, demonstrating 10 to more than 150 times more efficiency while maintaining an equal or superior expected return, as confirmed by carefully conducted analyses. Moreover, a deep neural network-based agent is trained using the highway graph, resulting in better generalization and lower storage costs.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは訓練効率の低下に悩まされることが多い。
この問題を緩和するための戦略は、モンテカルロ木探索(MCTS)や価値反復(VI)といったモデルベースの計画アルゴリズムを環境モデルに組み込むことである。
VIの最大の制限は、大きなテンソルを反復する必要があることである。
これらはいまだに集中的な計算に繋がる。
本稿では,RLアルゴリズムの学習効率を向上させることにより,RLアルゴリズムの学習効率を向上させることに注力する。
離散状態と作用空間を持つ決定論的環境において、遷移の非分岐列は中間状態から逸脱することなくエージェントを移動させ、これをハイウェイと呼ぶ。
このような非分岐ハイウェイでは、値更新プロセスは1ステップのプロセスとしてマージすることができる。
そこで本研究では,状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
我々のハイウェイグラフは遷移モデルを簡潔なグラフに圧縮し、エッジは複数の状態遷移を表現し、各イテレーションで複数の時間ステップで値の伝搬をサポートする。
これにより、ハイウェイグラフ上でのVIアルゴリズムの促進により、より効率的な価値学習手法を得ることができる。
ハイウェイグラフをRL(モデルに基づくオフポリシーRL法)に統合することにより、初期の段階(100万フレーム)においてRLトレーニングを著しく加速することができる。
その結果,提案手法はモデルフリー・モデルベースRLアルゴリズムとモデルフリー・モデルベースRLアルゴリズムの両方に優れており,同等あるいは優れたリターンを維持しつつ10~150倍以上の効率性を示した。
さらに、ディープニューラルネットワークベースのエージェントをハイウェイグラフを使用してトレーニングすることで、より一般化とストレージコストの低減を実現している。
関連論文リスト
- Efficient and Effective Implicit Dynamic Graph Neural Network [42.49148111696576]
Indicit Dynamic Graph Neural Network (IDGNN) は動的グラフのための新しい暗黙的ニューラルネットワークである。
IDGNNの鍵となる特徴は、それが実証的に良好である、すなわち、固定点表現を持つことが理論的に保証されていることである。
論文 参考訳(メタデータ) (2024-06-25T19:07:21Z) - X-RLflow: Graph Reinforcement Learning for Neural Network Subgraphs
Transformation [0.0]
グラフスーパー最適化システムは、最適な計算グラフ構造を見つけるために、ニューラルネットワークへのサブグラフ置換のシーケンスを実行する。
提案手法は,多種多様なディープラーニングモデルにおいて最先端の超最適化システムより優れており,トランスフォーマースタイルのアーキテクチャをベースとしたシステムでは最大40%の精度で実現可能であることを示す。
論文 参考訳(メタデータ) (2023-04-28T09:06:18Z) - ADLight: A Universal Approach of Traffic Signal Control with Augmented
Data Using Reinforcement Learning [3.3458830284045065]
本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。
一般化性能を向上させるために,textitmovement shuffle という新しいデータ拡張手法を開発した。
その結果,本手法の性能は,単一環境で訓練されたモデルに近いことがわかった。
論文 参考訳(メタデータ) (2022-10-24T16:21:48Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Graph Signal Restoration Using Nested Deep Algorithm Unrolling [85.53158261016331]
グラフ信号処理は、センサー、社会交通脳ネットワーク、ポイントクラウド処理、グラフネットワークなど、多くのアプリケーションにおいてユビキタスなタスクである。
凸非依存型深部ADMM(ADMM)に基づく2つの復元手法を提案する。
提案手法のパラメータはエンドツーエンドでトレーニング可能である。
論文 参考訳(メタデータ) (2021-06-30T08:57:01Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。