論文の概要: Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming
- arxiv url: http://arxiv.org/abs/2503.16371v1
- Date: Thu, 20 Mar 2025 17:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:29.028454
- Title: Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming
- Title(参考訳): ドメインに依存しない動的プログラミングをガイドするための強化学習に基づくヒューリスティックス
- Authors: Minori Narita, Ryo Kuroiwa, J. Christopher Beck,
- Abstract要約: ドメイン独立動的プログラミング(Domain-Independent Dynamic Programming、DIDP)は、動的プログラミングに基づく状態空間探索パラダイムである。
本稿では、強化学習を用いて、DIDPにおける探索を案内する機能を実現することを提案する。
本稿では,深層Q-Networksを用いた価値ベースガイダンスと,近接政策最適化を用いた政策ベースガイダンスという,RLに基づく2つのガイダンスアプローチを開発する。
- 参考スコア(独自算出の注目度): 4.84844579770664
- License:
- Abstract: Domain-Independent Dynamic Programming (DIDP) is a state-space search paradigm based on dynamic programming for combinatorial optimization. In its current implementation, DIDP guides the search using user-defined dual bounds. Reinforcement learning (RL) is increasingly being applied to combinatorial optimization problems and shares several key structures with DP, being represented by the Bellman equation and state-based transition systems. We propose using reinforcement learning to obtain a heuristic function to guide the search in DIDP. We develop two RL-based guidance approaches: value-based guidance using Deep Q-Networks and policy-based guidance using Proximal Policy Optimization. Our experiments indicate that RL-based guidance significantly outperforms standard DIDP and problem-specific greedy heuristics with the same number of node expansions. Further, despite longer node evaluation times, RL guidance achieves better run-time performance than standard DIDP on three of four benchmark domains.
- Abstract(参考訳): ドメイン独立動的プログラミング(Domain-Independent Dynamic Programming、DIDP)は、動的プログラミングに基づく状態空間探索パラダイムである。
現在の実装では、DIDPはユーザ定義の二重境界を用いた検索をガイドしている。
強化学習(Reinforcement Learning, RL)は、組合せ最適化問題に適用され、ベルマン方程式や状態ベース遷移系で表されるDPといくつかの重要な構造を共有している。
そこで我々は,DIDPにおける探索を指導するヒューリスティック関数を得るために,強化学習を用いることを提案する。
本稿では,深層Q-Networksを用いた価値ベースガイダンスと,近接政策最適化を用いた政策ベースガイダンスという,RLに基づく2つのガイダンスアプローチを開発する。
実験の結果, RLに基づくガイダンスは, ノード展開数が同じで, 標準DIDPと問題固有グリーディヒューリスティックスを著しく上回ることがわかった。
さらに、ノード評価時間が長いにもかかわらず、RLガイダンスは4つのベンチマークドメインのうち3つの標準DIDPよりも実行時のパフォーマンスが向上する。
関連論文リスト
- Deep Reinforcement Learning for Dynamic Resource Allocation in Wireless Networks [0.9307293959047378]
本報告では,無線通信システムにおける動的リソース割り当てに対する深部強化学習(DRL)アルゴリズムの適用について検討する。
アルゴリズムと学習率の選択はシステム性能に大きく影響を与え、DRLは従来の手法よりも効率的なリソース割り当てを提供する。
論文 参考訳(メタデータ) (2025-02-03T07:49:00Z) - Broad Critic Deep Actor Reinforcement Learning for Continuous Control [5.440090782797941]
アクター批判強化学習(RL)アルゴリズムのための新しいハイブリッドアーキテクチャを提案する。
提案したアーキテクチャは、広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合している。
提案アルゴリズムの有効性を2つの古典的連続制御タスクに適用することにより評価する。
論文 参考訳(メタデータ) (2024-11-24T12:24:46Z) - ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-13T14:25:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。