Fugu-MT 論文翻訳(概要): Reinforcement Learning via Conservative Agent for Environments with Random Delays

論文の概要: Reinforcement Learning via Conservative Agent for Environments with Random Delays

arxiv url: http://arxiv.org/abs/2507.18992v1
Date: Fri, 25 Jul 2025 06:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-28 16:16:48.846838
Title: Reinforcement Learning via Conservative Agent for Environments with Random Delays
Title（参考訳）: ランダム遅延を伴う環境に対する保守的エージェントによる強化学習
Authors: Jongsoo Lee, Jangwon Kim, Jiseok Jeong, Soohee Han,
Abstract要約: 本稿では,ランダム遅延下での意思決定のための単純かつ堅牢なエージェントを保守的エージェントと呼び,ランダム遅延環境を定遅延等価に再構成する。これにより、アルゴリズム構造を変更したり性能を犠牲にすることなく、最先端の定数遅延法を直接ランダム遅延環境に拡張することができる。
参考スコア（独自算出の注目度）: 2.115993069505241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world reinforcement learning applications are often hindered by delayed feedback from environments, which violates the Markov assumption and introduces significant challenges. Although numerous delay-compensating methods have been proposed for environments with constant delays, environments with random delays remain largely unexplored due to their inherent variability and unpredictability. In this study, we propose a simple yet robust agent for decision-making under random delays, termed the conservative agent, which reformulates the random-delay environment into its constant-delay equivalent. This transformation enables any state-of-the-art constant-delay method to be directly extended to the random-delay environments without modifying the algorithmic structure or sacrificing performance. We evaluate the conservative agent-based algorithm on continuous control tasks, and empirical results demonstrate that it significantly outperforms existing baseline algorithms in terms of asymptotic performance and sample efficiency.
Abstract（参考訳）: 実世界の強化学習アプリケーションは、マルコフの仮定に反し、重大な課題をもたらす環境からのフィードバックが遅れることによって、しばしば妨げられる。多くの遅延補償法が一定遅延のある環境に対して提案されているが、その固有の変動性と予測不可能性のため、ランダム遅延のある環境はほとんど探索されていない。本研究では,ランダム遅延下での意思決定のための単純だが頑健なエージェントを保守的エージェントと呼び,ランダム遅延環境を定遅延等価に再構成する。この変換により、任意の最先端の定数遅延法を、アルゴリズム構造を変更したり性能を犠牲にすることなく、ランダム遅延環境に直接拡張することができる。本研究では, 連続制御タスクに対する保守的エージェントベースアルゴリズムの評価を行い, 実験結果から, 漸近的性能とサンプル効率の点で, 既存のベースラインアルゴリズムを著しく上回っていることを示す。

関連論文リスト

Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-06-17T11:11:37Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文参考訳（メタデータ） (2024-06-05T09:45:26Z)
Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文参考訳（メタデータ） (2024-04-08T12:19:04Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文参考訳（メタデータ） (2021-08-17T10:45:55Z)
Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文参考訳（メタデータ） (2020-10-06T18:39:23Z)
Non-Stationary Delayed Bandits with Intermediate Observations [10.538264213183076]
オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。中間観測による非定常遅延帯域の問題を紹介する。 UCRLに基づく効率的なアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
論文参考訳（メタデータ） (2020-06-03T09:27:03Z)
Time-varying Gaussian Process Bandit Optimization with Non-constant Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文参考訳（メタデータ） (2020-03-10T13:28:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。