論文の概要: Self-evolving Autoencoder Embedded Q-Network
- arxiv url: http://arxiv.org/abs/2402.11604v1
- Date: Sun, 18 Feb 2024 14:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:08:26.507808
- Title: Self-evolving Autoencoder Embedded Q-Network
- Title(参考訳): 自己進化型オートエンコーダ組み込みQネットワーク
- Authors: J. Senthilnath, Bangjian Zhou, Zhen Wei Ng, Deeksha Aggarwal, Rajdeep
Dutta, Ji Wei Yoon, Aye Phyu Phyu Aung, Keyu Wu, Min Wu, Xiaoli Li
- Abstract要約: 本稿では,Q-Network を組み込んだ自己進化型オートエンコーダ SAQN を提案する。
SAQNでは、オートエンコーダアーキテクチャはエージェントが環境を探索する際に適応して進化する。
提案したSAQNは最先端のSAQNよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.414875682358085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of sequential decision-making tasks, the exploration capability
of a reinforcement learning (RL) agent is paramount for achieving high rewards
through interactions with the environment. To enhance this crucial ability, we
propose SAQN, a novel approach wherein a self-evolving autoencoder (SA) is
embedded with a Q-Network (QN). In SAQN, the self-evolving autoencoder
architecture adapts and evolves as the agent explores the environment. This
evolution enables the autoencoder to capture a diverse range of raw
observations and represent them effectively in its latent space. By leveraging
the disentangled states extracted from the encoder generated latent space, the
QN is trained to determine optimal actions that improve rewards. During the
evolution of the autoencoder architecture, a bias-variance regulatory strategy
is employed to elicit the optimal response from the RL agent. This strategy
involves two key components: (i) fostering the growth of nodes to retain
previously acquired knowledge, ensuring a rich representation of the
environment, and (ii) pruning the least contributing nodes to maintain a more
manageable and tractable latent space. Extensive experimental evaluations
conducted on three distinct benchmark environments and a real-world molecular
environment demonstrate that the proposed SAQN significantly outperforms
state-of-the-art counterparts. The results highlight the effectiveness of the
self-evolving autoencoder and its collaboration with the Q-Network in tackling
sequential decision-making tasks.
- Abstract(参考訳): 逐次的意思決定タスクの分野では,強化学習(rl)エージェントの探索能力は,環境とのインタラクションを通じて高い報酬を得る上で最重要となる。
そこで本研究では,自己進化型オートエンコーダ(SA)をQ-Network(QN)に組み込む新しい手法であるSAQNを提案する。
SAQNでは、自己進化型オートエンコーダアーキテクチャは、エージェントが環境を探索する際に適応して進化する。
この進化により、オートエンコーダは様々な生の観測を捉え、潜在空間において効果的に表現することができる。
エンコーダ生成した潜在空間から抽出された不連続状態を利用して、qnを訓練し、報酬を改善する最適なアクションを決定する。
オートエンコーダアーキテクチャの進化において、rlエージェントからの最適な応答を導出するためにバイアス分散規制戦略が用いられる。
この戦略には2つの重要な要素があります
(i)事前に獲得した知識を保持するためのノードの成長の促進、環境の豊かな表現の確保、
(ii)より管理可能でトラクタブルな潜在空間を維持するために、最小の寄与ノードをプルーニングすること。
3つの異なるベンチマーク環境と実世界の分子環境で行った大規模な実験により、提案したSAQNは最先端の環境よりも大幅に優れていることが示された。
その結果、自己進化型オートエンコーダの有効性と、シーケンシャルな意思決定タスクに取り組む上でのQ-Networkとの協調性を強調した。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self Expanding Convolutional Neural Networks [1.4330085996657045]
本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。
我々は、単一のモデルを動的に拡張する戦略を採用し、様々な複雑さのレベルでチェックポイントの抽出を容易にする。
論文 参考訳(メタデータ) (2024-01-11T06:22:40Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Graded-Q Reinforcement Learning with Information-Enhanced State Encoder
for Hierarchical Collaborative Multi-Vehicle Pursuit [11.195170949292496]
インテリジェントトランスポーテーションシステム(ITS)における多車追跡(MVP)の話題になりつつある。
本稿では,この階層的協調探索問題に対処するために,情報強化状態エンコーダ(GQRL-IESE)フレームワークを用いたグレードQ強化学習を提案する。
GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
論文 参考訳(メタデータ) (2022-10-24T16:35:34Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。