論文の概要: Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments
- arxiv url: http://arxiv.org/abs/2507.00762v2
- Date: Wed, 02 Jul 2025 14:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.654551
- Title: Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments
- Title(参考訳): 実世界の強化学習環境における効率的なデモ生成のための遺伝的アルゴリズムの活用
- Authors: Tom Maus, Asma Atamna, Tobias Glasmachers,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。
本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。
本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning (RL) has demonstrated significant potential in certain real-world industrial applications, yet its broader deployment remains limited by inherent challenges such as sample inefficiency and unstable learning dynamics. This study investigates the utilization of Genetic Algorithms (GAs) as a mechanism for improving RL performance in an industrially inspired sorting environment. We propose a novel approach in which GA-generated expert demonstrations are used to enhance policy learning. These demonstrations are incorporated into a Deep Q-Network (DQN) replay buffer for experience-based learning and utilized as warm-start trajectories for Proximal Policy Optimization (PPO) agents to accelerate training convergence. Our experiments compare standard RL training with rule-based heuristics, brute-force optimization, and demonstration data, revealing that GA-derived demonstrations significantly improve RL performance. Notably, PPO agents initialized with GA-generated data achieved superior cumulative rewards, highlighting the potential of hybrid learning paradigms, where heuristic search methods complement data-driven RL. The utilized framework is publicly available and enables further research into adaptive RL strategies for real-world applications.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、特定の実世界の産業アプリケーションにおいて大きな可能性を示しているが、その広範な展開は、サンプルの非効率性や不安定な学習ダイナミクスといった固有の課題によって制限されている。
本研究では,遺伝的アルゴリズム(GA)を産業にインスパイアされたソート環境におけるRL性能向上のメカニズムとして活用することを検討した。
本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
これらのデモは、経験ベース学習のためのDeep Q-Network(DQN)リプレイバッファに組み込まれ、トレーニング収束を加速するためにPPOエージェントのウォームスタートトラジェクトリとして利用される。
本実験は, 標準RLトレーニングとルールベースヒューリスティックス, ブルートフォース最適化, および実演データを比較し, GA由来の実演がRL性能を大幅に向上することを明らかにする。
特に、GA生成データを初期化したPPOエージェントは、データ駆動RLを補完するヒューリスティック検索手法であるハイブリッド学習パラダイムの可能性を強調し、優れた累積報酬を得た。
利用可能なフレームワークは公開されており、現実世界のアプリケーションに適応的なRL戦略をさらに研究することができる。
関連論文リスト
- Synergizing Reinforcement Learning and Genetic Algorithms for Neural Combinatorial Optimization [25.633698252033756]
本稿では,DRLの学習効率をGAのグローバル検索能力と相乗化するための進化的拡張機構を提案する。
EAMは、学習されたポリシーからソリューションを生成し、クロスオーバーや突然変異といったドメイン固有の遺伝子操作によってそれらを精製することで機能する。
EAMは、アテンションモデル、POMO、SymNCOのような最先端のDRLソルバとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-06-11T05:17:30Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。