論文の概要: Self-evolving Autoencoder Embedded Q-Network
- arxiv url: http://arxiv.org/abs/2402.11604v1
- Date: Sun, 18 Feb 2024 14:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:08:26.507808
- Title: Self-evolving Autoencoder Embedded Q-Network
- Title(参考訳): 自己進化型オートエンコーダ組み込みQネットワーク
- Authors: J. Senthilnath, Bangjian Zhou, Zhen Wei Ng, Deeksha Aggarwal, Rajdeep
Dutta, Ji Wei Yoon, Aye Phyu Phyu Aung, Keyu Wu, Min Wu, Xiaoli Li
- Abstract要約: 本稿では,Q-Network を組み込んだ自己進化型オートエンコーダ SAQN を提案する。
SAQNでは、オートエンコーダアーキテクチャはエージェントが環境を探索する際に適応して進化する。
提案したSAQNは最先端のSAQNよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.414875682358085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of sequential decision-making tasks, the exploration capability
of a reinforcement learning (RL) agent is paramount for achieving high rewards
through interactions with the environment. To enhance this crucial ability, we
propose SAQN, a novel approach wherein a self-evolving autoencoder (SA) is
embedded with a Q-Network (QN). In SAQN, the self-evolving autoencoder
architecture adapts and evolves as the agent explores the environment. This
evolution enables the autoencoder to capture a diverse range of raw
observations and represent them effectively in its latent space. By leveraging
the disentangled states extracted from the encoder generated latent space, the
QN is trained to determine optimal actions that improve rewards. During the
evolution of the autoencoder architecture, a bias-variance regulatory strategy
is employed to elicit the optimal response from the RL agent. This strategy
involves two key components: (i) fostering the growth of nodes to retain
previously acquired knowledge, ensuring a rich representation of the
environment, and (ii) pruning the least contributing nodes to maintain a more
manageable and tractable latent space. Extensive experimental evaluations
conducted on three distinct benchmark environments and a real-world molecular
environment demonstrate that the proposed SAQN significantly outperforms
state-of-the-art counterparts. The results highlight the effectiveness of the
self-evolving autoencoder and its collaboration with the Q-Network in tackling
sequential decision-making tasks.
- Abstract(参考訳): 逐次的意思決定タスクの分野では,強化学習(rl)エージェントの探索能力は,環境とのインタラクションを通じて高い報酬を得る上で最重要となる。
そこで本研究では,自己進化型オートエンコーダ(SA)をQ-Network(QN)に組み込む新しい手法であるSAQNを提案する。
SAQNでは、自己進化型オートエンコーダアーキテクチャは、エージェントが環境を探索する際に適応して進化する。
この進化により、オートエンコーダは様々な生の観測を捉え、潜在空間において効果的に表現することができる。
エンコーダ生成した潜在空間から抽出された不連続状態を利用して、qnを訓練し、報酬を改善する最適なアクションを決定する。
オートエンコーダアーキテクチャの進化において、rlエージェントからの最適な応答を導出するためにバイアス分散規制戦略が用いられる。
この戦略には2つの重要な要素があります
(i)事前に獲得した知識を保持するためのノードの成長の促進、環境の豊かな表現の確保、
(ii)より管理可能でトラクタブルな潜在空間を維持するために、最小の寄与ノードをプルーニングすること。
3つの異なるベンチマーク環境と実世界の分子環境で行った大規模な実験により、提案したSAQNは最先端の環境よりも大幅に優れていることが示された。
その結果、自己進化型オートエンコーダの有効性と、シーケンシャルな意思決定タスクに取り組む上でのQ-Networkとの協調性を強調した。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Self Expanding Convolutional Neural Networks [1.4330085996657045]
本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。
我々は、単一のモデルを動的に拡張する戦略を採用し、様々な複雑さのレベルでチェックポイントの抽出を容易にする。
論文 参考訳(メタデータ) (2024-01-11T06:22:40Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。
自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T14:44:29Z) - Graded-Q Reinforcement Learning with Information-Enhanced State Encoder
for Hierarchical Collaborative Multi-Vehicle Pursuit [11.195170949292496]
インテリジェントトランスポーテーションシステム(ITS)における多車追跡(MVP)の話題になりつつある。
本稿では,この階層的協調探索問題に対処するために,情報強化状態エンコーダ(GQRL-IESE)フレームワークを用いたグレードQ強化学習を提案する。
GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
論文 参考訳(メタデータ) (2022-10-24T16:35:34Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。