Fugu-MT 論文翻訳(概要): Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays

論文の概要: Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays

arxiv url: http://arxiv.org/abs/2402.03141v2
Date: Wed, 5 Jun 2024 19:12:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 23:50:27.780663
Title: Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays
Title（参考訳）: 補助的短遅延による強遅延フィードバックによる強化学習の強化
Authors: Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Jürgen Schmidhuber, Chao Huang,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。本稿では、短時間の遅延を含む補助的なタスクを活用して、長時間の遅延でRLを高速化する、Auxiliary-Delayed Reinforcement Learning (AD-RL) 法を提案する。具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
参考スコア（独自算出の注目度）: 41.52768902667611
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) is challenging in the common case of delays between events and their sensory perceptions. State-of-the-art (SOTA) state augmentation techniques either suffer from state space explosion or performance degeneration in stochastic environments. To address these challenges, we present a novel Auxiliary-Delayed Reinforcement Learning (AD-RL) method that leverages auxiliary tasks involving short delays to accelerate RL with long delays, without compromising performance in stochastic environments. Specifically, AD-RL learns a value function for short delays and uses bootstrapping and policy improvement techniques to adjust it for long delays. We theoretically show that this can greatly reduce the sample complexity. On deterministic and stochastic benchmarks, our method significantly outperforms the SOTAs in both sample efficiency and policy performance. Code is available at https://github.com/QingyuanWuNothing/AD-RL.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。最先端のSOTA(State-of-the-art State Augmentation)技術は、確率的環境における状態空間の爆発または性能劣化に悩まされる。これらの課題に対処するために, 確率環境における性能を損なうことなく, 短時間の遅延を含む補助的タスクを利用して, 長時間の遅延でRLを加速する, 補助的強化学習(AD-RL)手法を提案する。具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。理論的には、これはサンプルの複雑さを大幅に減少させる可能性がある。決定論的および確率的ベンチマークでは,本手法はサンプル効率と政策性能の両方においてSOTAよりも有意に優れていた。コードはhttps://github.com/QingyuanWuNothing/AD-RLで入手できる。

関連論文リスト

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning [25.642307880136332]
イミテーションラーニング(IL)と強化ラーニング(RL)はそれぞれ、ロボットポリシーラーニングに明確なアドバンテージを提供する。 IL-based pre-training と RL-based fine-tuning を用いた既存のロボット学習アプローチは有望であるが、この2段階学習パラダイムは、RL 微細チューニングフェーズの不安定性とサンプル効率の低下に悩まされることが多い。本研究では,政策微調整のためのIN-RIL,INterleaved Reinforcement Learning and Imitation Learningを紹介する。
論文参考訳（メタデータ） (2025-05-15T16:01:21Z)
SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文参考訳（メタデータ） (2025-01-15T09:04:19Z)
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文参考訳（メタデータ） (2024-06-05T09:45:26Z)
Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-23T06:57:04Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文参考訳（メタデータ） (2023-09-12T20:58:21Z)
FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。 ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。 FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文参考訳（メタデータ） (2022-09-28T19:49:39Z)
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文参考訳（メタデータ） (2021-08-17T10:45:55Z)
Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文参考訳（メタデータ） (2020-10-06T18:39:23Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。