Fugu-MT 論文翻訳(概要): Direct Gradient Temporal Difference Learning

論文の概要: Direct Gradient Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2308.01170v1
Date: Wed, 2 Aug 2023 14:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 12:41:15.495050
Title: Direct Gradient Temporal Difference Learning
Title（参考訳）: 直接勾配時間差学習
Authors: Xiaochi Qian, Shangtong Zhang
Abstract要約: オフ・ポリシー・ラーニングは、強化学習エージェントが実行されていないポリシーについて反実的に推論することを可能にする。関数近似とブートストラップを組み合わせると不安定になる可能性がある。本稿では,マルコフデータストリームに2つのサンプルを単純に使用することで,二重サンプリング問題を解決する手法を提案する。
参考スコア（独自算出の注目度）: 23.297137490591382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Off-policy learning enables a reinforcement learning (RL) agent to reason counterfactually about policies that are not executed and is one of the most important ideas in RL. It, however, can lead to instability when combined with function approximation and bootstrapping, two arguably indispensable ingredients for large-scale reinforcement learning. This is the notorious deadly triad. Gradient Temporal Difference (GTD) is one powerful tool to solve the deadly triad. Its success results from solving a doubling sampling issue indirectly with weight duplication or Fenchel duality. In this paper, we instead propose a direct method to solve the double sampling issue by simply using two samples in a Markovian data stream with an increasing gap. The resulting algorithm is as computationally efficient as GTD but gets rid of GTD's extra weights. The only price we pay is a logarithmically increasing memory as time progresses. We provide both asymptotic and finite sample analysis, where the convergence rate is on-par with the canonical on-policy temporal difference learning. Key to our analysis is a novel refined discretization of limiting ODEs.
Abstract（参考訳）: オフ・ポリシー・ラーニングは、強化学習(rl)エージェントが実行されないポリシーについて反事実的に判断することが可能であり、rlで最も重要なアイデアの1つである。しかし、機能近似とブートストラップを組み合わせると不安定になり、大規模な強化学習に欠かせない2つの要素が組み合わされる。これは悪名高い致命的なトリアドだ GTD(Gradient Temporal difference)は、致命的な三位一体を解決する強力なツールである。その成功は、重みの重複やフェンシェル双対性で間接的に二重サンプリング問題を解くことによる。本稿では,マルコフデータストリーム内の2つのサンプルをギャップを増加させることで,二重サンプリング問題を解くための直接的手法を提案する。結果として得られるアルゴリズムはGTDと同じくらい計算効率が良いが、GTDの余分な重みを排除できる。時間の経過とともにメモリを対数的に増やすだけなのです。漸近的および有限なサンプル分析を行い, 収束率は正準オンポリティカル時間差学習とほぼ同値である。我々の分析の鍵は、制限ODEの斬新な離散化である。

関連論文リスト

Deep Reinforcement Learning with Gradient Eligibility Traces [25.47053572017618]
本研究では, 高度強化学習において, 高速かつ安定なオフ政治学習を実現するための勾配に基づく3つの手法を提案する。我々は、経験的再生に適合する前方視定式化と、ストリーミングアルゴリズムと互換性のある後方視定式化を提供する。提案アルゴリズムは, MuJoCo 環境と MinAtar 環境においてPPO と StreamQ の両方より優れていることを示す。
論文参考訳（メタデータ） (2025-07-12T00:12:05Z)
Actor-Critics Can Achieve Optimal Sample Efficiency [15.033410073144939]
我々は,$O(dH5 log|mathcalA|/epsilon2 + dH4 log|mathcalF|/epsilon2)$ trajectories のサンプル複雑度を得る新しいアクター批判アルゴリズムを提案する。我々はこれをHybrid RLの設定にまで拡張し、批評家をオフラインデータで初期化すると、純粋なオフラインやオンラインRLに比べてサンプル効率が向上することを示した。
論文参考訳（メタデータ） (2025-05-06T17:32:39Z)
Accelerating Multi-Task Temporal Difference Learning under Low-Rank Representation [12.732028509861829]
低ランク表現環境下でのマルチタスク強化学習(RL)における政策評価問題について検討する。そこで我々は,TD学習の更新に,いわゆるtruncatedの特異値分解ステップを統合する,新しいTD学習法を提案する。実験の結果,提案手法は古典的なTD学習よりも優れており,性能差は$r$が減少するにつれて増大することがわかった。
論文参考訳（メタデータ） (2025-03-03T20:07:45Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Statistical Efficiency of Distributional Temporal Difference Learning [24.03281329962804]
我々は、分布時間差分学習(CTD)と量子時間差分学習(QTD)の有限サンプル性能を解析する。 $gamma$-discounted infinite-horizon decision process に対して、NTD では $tildeOleft(frac1varepsilon2p (1-gamma)2pright)$ が、高い確率で $varepsilon$-optimal estimator を達成するために必要であることを示す。我々はヒルベルト空間における新しいフリードマンの不等式を確立し、これは独立な関心事である。
論文参考訳（メタデータ） (2024-03-09T06:19:53Z)
Function Value Learning: Adaptive Learning Rates Based on the Polyak Stepsize and Function Splitting in ERM [6.542289202349586]
我々は、経験的リスク最小化(experiical risk minimization)としても知られる有限項和問題に焦点をあてる。最初に、サンプル損失値を利用する、$textttSPS_+$と呼ばれる理想化された適応メソッドを詳述する。次に、最適な損失値が徐々に学習される$textttSPS_+$の変種である$textttFUVAL$を開発する。
論文参考訳（メタデータ） (2023-07-26T22:12:31Z)
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文参考訳（メタデータ） (2023-05-15T05:37:32Z)
Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文参考訳（メタデータ） (2023-03-05T15:11:14Z)
Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-08T23:41:29Z)
Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文参考訳（メタデータ） (2022-10-05T22:53:46Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games [36.969021834291745]
本稿では,仮説クラスの逐次的脂肪散乱次元の観点から,ほぼ最適誤差を導出する固有学習アルゴリズムを提案する。この結果は、適切な学習者が準最適誤り境界を達成できるかどうかという疑問に答える。実数値(回帰)設定では、最適誤り境界は不適切な学習者にさえ知られていなかった。
論文参考訳（メタデータ） (2021-11-17T05:24:21Z)
Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文参考訳（メタデータ） (2021-09-29T14:07:21Z)
Randomized Exploration for Reinforcement Learning with General Value Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文参考訳（メタデータ） (2021-06-15T02:23:07Z)
An Analysis of Frame-skipping in Reinforcement Learning [13.680685626360903]
多くのAtariコンソールゲームでは、強化学習アルゴリズムが$d > 1$で実行する場合、かなり優れたポリシーを提供する。我々は、同じアクションの$d$長のシーケンスに対するこの選択の一般的な制限である「アクション-繰り返し」に焦点を当てる。この損失は、より小さなタスクの地平線によって学習がもたらされた利益によって相殺される可能性がある。
論文参考訳（メタデータ） (2021-02-07T04:59:09Z)
Provably Efficient Reinforcement Learning with Linear Function Approximation Under Adaptivity Constraints [94.76881135901753]
一般的な限定的適応モデルとして,バッチ学習モデルとレアポリシースイッチモデルがある。提案したLSVI-UCB-Batchアルゴリズムは,$tilde O(sqrtd3H3T + dHT/B)$ regretを実現する。まれなポリシスイッチモデルでは,提案されたLSVI-UCB-RareSwitchアルゴリズムは,$tilde O(sqrtd3H3T[1+T/(dH)]dH/B)$の後悔を享受する。
論文参考訳（メタデータ） (2021-01-06T18:56:07Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。