Fugu-MT 論文翻訳(概要): PID Accelerated Temporal Difference Algorithms

論文の概要: PID Accelerated Temporal Difference Algorithms

arxiv url: http://arxiv.org/abs/2407.08803v2
Date: Tue, 3 Sep 2024 16:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 17:21:21.149795
Title: PID Accelerated Temporal Difference Algorithms
Title（参考訳）: PID加速時間差アルゴリズム
Authors: Mark Bedaywi, Amin Rakhsha, Amir-massoud Farahmand,
Abstract要約: 価値反復(Value Iteration)や時間差分(TD)学習(TD)学習(TD)のようなアルゴリズムは、収束速度が遅く、これらのタスクでは非効率になる。 PID VIは、制御理論のアイデアを用いた価値反復の収束を加速するために最近導入された。我々は,従来のTD学習と比較して,PID TD学習の収束とその加速に関する理論的解析を行う。
参考スコア（独自算出の注目度）: 7.634360142922117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-horizon tasks, which have a large discount factor, pose a challenge for most conventional reinforcement learning (RL) algorithms. Algorithms such as Value Iteration and Temporal Difference (TD) learning have a slow convergence rate and become inefficient in these tasks. When the transition distributions are given, PID VI was recently introduced to accelerate the convergence of Value Iteration using ideas from control theory. Inspired by this, we introduce PID TD Learning and PID Q-Learning algorithms for the RL setting, in which only samples from the environment are available. We give a theoretical analysis of the convergence of PID TD Learning and its acceleration compared to the conventional TD Learning. We also introduce a method for adapting PID gains in the presence of noise and empirically verify its effectiveness.
Abstract（参考訳）: 長い水平タスクは大きな割引係数を持ち、従来の強化学習(RL)アルゴリズムでは困難である。価値反復(Value Iteration)や時間差分(TD)学習(TD)学習(TD)のようなアルゴリズムは、収束速度が遅く、これらのタスクでは非効率になる。遷移分布が与えられると、PID VIが最近導入され、制御理論のアイデアを用いて価値反復の収束を加速した。そこで本研究では,RL設定のためのPID TD LearningとPID Q-Learningアルゴリズムを導入する。我々は,従来のTD学習と比較して,PID TD学習の収束とその加速に関する理論的解析を行う。また、雑音の存在下でPIDゲインを適応させる手法を導入し、その効果を実証的に検証する。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-23T06:57:04Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
Backstepping Temporal Difference Learning [3.5823366350053325]
政治外TD学習のための新しい収束アルゴリズムを提案する。本手法は非線形制御理論において広く用いられているバックステッピング法に依存する。提案アルゴリズムの収束性は、標準のTD学習が不安定であることが知られている環境で実験的に検証される。
論文参考訳（メタデータ） (2023-02-20T10:06:49Z)
Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文参考訳（メタデータ） (2022-12-02T05:07:50Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。 2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文参考訳（メタデータ） (2022-01-22T14:47:10Z)
Cooperative Deep $Q$-learning Framework for Environments Providing Image Feedback [5.607676459156789]
本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
論文参考訳（メタデータ） (2021-10-28T17:12:41Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。