論文の概要: Highway Graph to Accelerate Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.11727v2
- Date: Tue, 07 Jan 2025 15:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:10.862888
- Title: Highway Graph to Accelerate Reinforcement Learning
- Title(参考訳): 強化学習を加速するハイウェイグラフ
- Authors: Zidu Yin, Zhen Zhang, Dong Gong, Stefano V. Albrecht, Javen Q. Shi,
- Abstract要約: 強化学習アルゴリズムは訓練効率の低下に苦慮することが多い。
状態遷移をモデル化するためのハイウェイグラフを導入する。
提案手法は,既存のRLアルゴリズムよりもはるかに高速に学習する。
- 参考スコア(独自算出の注目度): 18.849312069946993
- License:
- Abstract: Reinforcement Learning (RL) algorithms often struggle with low training efficiency. A common approach to address this challenge is integrating model-based planning algorithms, such as Monte Carlo Tree Search (MCTS) or Value Iteration (VI), into the environmental model. However, VI requires iterating over a large tensor which updates the value of the preceding state based on the succeeding state through value propagation, resulting in computationally intensive operations. To enhance the RL training efficiency, we propose improving the efficiency of the value learning process. In deterministic environments with discrete state and action spaces, we observe that on the sampled empirical state-transition graph, a non-branching sequence of transitions-termed a highway-can take the agent to another state without deviation through intermediate states. On these non-branching highways, the value-updating process can be streamlined into a single-step operation, eliminating the need for step-by-step updates. Building on this observation, we introduce the highway graph to model state transitions. The highway graph compresses the transition model into a compact representation, where edges can encapsulate multiple state transitions, enabling value propagation across multiple time steps in a single iteration. By integrating the highway graph into RL, the training process is significantly accelerated, particularly in the early stages of training. Experiments across four categories of environments demonstrate that our method learns significantly faster than established and state-of-the-art RL algorithms (often by a factor of 10 to 150) while maintaining equal or superior expected returns. Furthermore, a deep neural network-based agent trained using the highway graph exhibits improved generalization capabilities and reduced storage costs. Code is publicly available at https://github.com/coodest/highwayRL.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは訓練効率の低下に悩むことが多い。
この課題に対処するための一般的なアプローチは、MCTS(Monte Carlo Tree Search)やVI(Value Iteration)といったモデルベースの計画アルゴリズムを環境モデルに統合することである。
しかし、VI は、先行状態の値を値伝播によって更新する大きなテンソルを反復し、計算集約的な演算を行う必要がある。
本稿では,RL学習効率を向上させるために,価値学習プロセスの効率化を提案する。
離散状態と行動空間を持つ決定論的環境においては,中間状態の偏差を伴わずにエージェントを他の状態へ移動させることができる遷移の非分岐列である経験的状態遷移グラフが観察される。
これらの非分岐ハイウェイでは、価値更新プロセスが1ステップの操作に合理化され、ステップバイステップの更新が不要になる。
この観測に基づいて、状態遷移をモデル化するハイウェイグラフを導入する。
ハイウェイグラフは遷移モデルをコンパクトな表現に圧縮し、エッジは複数の状態遷移をカプセル化でき、1回のイテレーションで複数の時間ステップで値の伝搬を可能にする。
ハイウェイグラフをRLに統合することにより、トレーニングプロセスは、特にトレーニングの初期段階において、大幅に加速される。
4つのカテゴリの環境に対する実験により、我々の手法は確立されたRLアルゴリズムや最先端のRLアルゴリズム(しばしば10~150倍)よりもはるかに高速に学習し、同等あるいは優れたリターンを維持できることを示した。
さらに、ハイウェイグラフを使用してトレーニングされたディープニューラルネットワークベースのエージェントは、一般化機能の改善とストレージコストの削減を示す。
コードはhttps://github.com/coodest/highwayRLで公開されている。
関連論文リスト
- Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Efficient Neural Network Approaches for Conditional Optimal Transport with Applications in Bayesian Inference [1.740133468405535]
静的および条件付き最適輸送(COT)問題の解を近似する2つのニューラルネットワークアプローチを提案する。
我々は、ベンチマークデータセットとシミュレーションに基づく逆問題を用いて、両アルゴリズムを競合する最先端のアプローチと比較する。
論文 参考訳(メタデータ) (2023-10-25T20:20:09Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - ADLight: A Universal Approach of Traffic Signal Control with Augmented
Data Using Reinforcement Learning [3.3458830284045065]
本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。
一般化性能を向上させるために,textitmovement shuffle という新しいデータ拡張手法を開発した。
その結果,本手法の性能は,単一環境で訓練されたモデルに近いことがわかった。
論文 参考訳(メタデータ) (2022-10-24T16:21:48Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。