論文の概要: DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance
- arxiv url: http://arxiv.org/abs/2503.02279v1
- Date: Tue, 04 Mar 2025 05:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:24.380810
- Title: DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance
- Title(参考訳): 交通信号制御のためのDreamerV3:ハイパーパラメータチューニングと性能
- Authors: Qiang Li, Yinhan Lin, Qin Luo, Lina Yu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。
DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。
本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
- 参考スコア(独自算出の注目度): 4.962905815955427
- License:
- Abstract: Reinforcement learning (RL) has evolved into a widely investigated technology for the development of smart TSC strategies. However, current RL algorithms necessitate excessive interaction with the environment to learn effective policies, making them impractical for large-scale tasks. The DreamerV3 algorithm presents compelling properties for policy learning. It summarizes general dynamics knowledge about the environment and enables the prediction of future outcomes of potential actions from past experience, reducing the interaction with the environment through imagination training. In this paper, a corridor TSC model is trained using the DreamerV3 algorithm to explore the benefits of world models for TSC strategy learning. In RL environment design, to manage congestion levels effectively, both the state and reward functions are defined based on queue length, and the action is designed to manage queue length efficiently. Using the SUMO simulation platform, the two hyperparameters (training ratio and model size) of the DreamerV3 algorithm were tuned and analyzed across different OD matrix scenarios. We discovered that choosing a smaller model size and initially attempting several medium training ratios can significantly reduce the time spent on hyperparameter tuning. Additionally, we found that the approach is generally applicable as it can solve two TSC task scenarios with the same hyperparameters. Regarding the claimed data-efficiency of the DreamerV3 algorithm, due to the significant fluctuation of the episode reward curve in the early stages of training, it can only be confirmed that larger model sizes exhibit modest data-efficiency, and no evidence was found that increasing the training ratio accelerates convergence.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。
しかし、現在のRLアルゴリズムは、効率的なポリシーを学ぶために環境との過剰な相互作用を必要とし、大規模なタスクでは実用的ではない。
DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。
環境に関する一般的な力学知識を要約し、過去の経験から潜在的行動の将来の結果を予測することを可能にし、想像力トレーニングを通じて環境との相互作用を減らす。
本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
RL環境設計では、混雑レベルを効果的に管理するために、状態と報酬関数の両方をキュー長に基づいて定義し、アクションはキュー長を効率的に管理するように設計されている。
SUMOシミュレーションプラットフォームを用いて、DreamerV3アルゴリズムの2つのハイパーパラメータ(トレーニング比とモデルサイズ)を調整し、異なるOD行列シナリオで解析した。
モデルサイズを小さくし、最初は複数の中等度トレーニング比を試すことで、ハイパーパラメータチューニングに費やした時間を大幅に削減できることがわかった。
さらに,2つのタスクシナリオを同じハイパーパラメータで解決できるため,本手法は一般的に適用可能であることがわかった。
DreamerV3アルゴリズムの要求されたデータ効率については、トレーニングの初期段階におけるエピソード報酬曲線の顕著な変動により、より大きなモデルサイズが控えめなデータ効率を示すことが確認でき、トレーニング比率の増加が収束を加速する証拠は見出されていない。
関連論文リスト
- MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。