Fugu-MT 論文翻訳(概要): Self-evolving Autoencoder Embedded Q-Network

論文の概要: Self-evolving Autoencoder Embedded Q-Network

arxiv url: http://arxiv.org/abs/2402.11604v1
Date: Sun, 18 Feb 2024 14:42:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:08:26.507808
Title: Self-evolving Autoencoder Embedded Q-Network
Title（参考訳）: 自己進化型オートエンコーダ組み込みQネットワーク
Authors: J. Senthilnath, Bangjian Zhou, Zhen Wei Ng, Deeksha Aggarwal, Rajdeep Dutta, Ji Wei Yoon, Aye Phyu Phyu Aung, Keyu Wu, Min Wu, Xiaoli Li
Abstract要約: 本稿では,Q-Network を組み込んだ自己進化型オートエンコーダ SAQN を提案する。 SAQNでは、オートエンコーダアーキテクチャはエージェントが環境を探索する際に適応して進化する。提案したSAQNは最先端のSAQNよりも優れていることを示す。
参考スコア（独自算出の注目度）: 9.414875682358085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of sequential decision-making tasks, the exploration capability of a reinforcement learning (RL) agent is paramount for achieving high rewards through interactions with the environment. To enhance this crucial ability, we propose SAQN, a novel approach wherein a self-evolving autoencoder (SA) is embedded with a Q-Network (QN). In SAQN, the self-evolving autoencoder architecture adapts and evolves as the agent explores the environment. This evolution enables the autoencoder to capture a diverse range of raw observations and represent them effectively in its latent space. By leveraging the disentangled states extracted from the encoder generated latent space, the QN is trained to determine optimal actions that improve rewards. During the evolution of the autoencoder architecture, a bias-variance regulatory strategy is employed to elicit the optimal response from the RL agent. This strategy involves two key components: (i) fostering the growth of nodes to retain previously acquired knowledge, ensuring a rich representation of the environment, and (ii) pruning the least contributing nodes to maintain a more manageable and tractable latent space. Extensive experimental evaluations conducted on three distinct benchmark environments and a real-world molecular environment demonstrate that the proposed SAQN significantly outperforms state-of-the-art counterparts. The results highlight the effectiveness of the self-evolving autoencoder and its collaboration with the Q-Network in tackling sequential decision-making tasks.
Abstract（参考訳）: 逐次的意思決定タスクの分野では,強化学習(rl)エージェントの探索能力は,環境とのインタラクションを通じて高い報酬を得る上で最重要となる。そこで本研究では,自己進化型オートエンコーダ(SA)をQ-Network(QN)に組み込む新しい手法であるSAQNを提案する。 SAQNでは、自己進化型オートエンコーダアーキテクチャは、エージェントが環境を探索する際に適応して進化する。この進化により、オートエンコーダは様々な生の観測を捉え、潜在空間において効果的に表現することができる。エンコーダ生成した潜在空間から抽出された不連続状態を利用して、qnを訓練し、報酬を改善する最適なアクションを決定する。オートエンコーダアーキテクチャの進化において、rlエージェントからの最適な応答を導出するためにバイアス分散規制戦略が用いられる。この戦略には2つの重要な要素があります (i)事前に獲得した知識を保持するためのノードの成長の促進、環境の豊かな表現の確保、 (ii)より管理可能でトラクタブルな潜在空間を維持するために、最小の寄与ノードをプルーニングすること。 3つの異なるベンチマーク環境と実世界の分子環境で行った大規模な実験により、提案したSAQNは最先端の環境よりも大幅に優れていることが示された。その結果、自己進化型オートエンコーダの有効性と、シーケンシャルな意思決定タスクに取り組む上でのQ-Networkとの協調性を強調した。

関連論文リスト

Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。 ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文参考訳（メタデータ） (2025-03-03T16:08:33Z)
Grammarization-Based Grasping with Deep Multi-Autoencoder Latent Space Exploration by Reinforcement Learning Agent [0.0]
本稿では,高次元の目標とグリップの特徴を圧縮するアイデアに基づく,ロボットグルーピングのための新しいフレームワークを提案する。提案手法は,対象とグリップに専用の3つのオートエンコーダと,その潜在表現を融合させる第3のオートエンコーダを用いて,把握を簡略化する。
論文参考訳（メタデータ） (2024-11-13T12:26:08Z)
Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文参考訳（メタデータ） (2024-06-12T03:30:10Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Graded-Q Reinforcement Learning with Information-Enhanced State Encoder for Hierarchical Collaborative Multi-Vehicle Pursuit [11.195170949292496]
インテリジェントトランスポーテーションシステム(ITS)における多車追跡(MVP)の話題になりつつある。本稿では,この階層的協調探索問題に対処するために,情報強化状態エンコーダ(GQRL-IESE)フレームワークを用いたグレードQ強化学習を提案する。 GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。
論文参考訳（メタデータ） (2022-10-24T16:35:34Z)
Task-Oriented Sensing, Computation, and Communication Integration for Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文参考訳（メタデータ） (2022-07-03T06:57:07Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。