Fugu-MT 論文翻訳(概要): The Effect of Q-function Reuse on the Total Regret of Tabular, Model-Free, Reinforcement Learning

論文の概要: The Effect of Q-function Reuse on the Total Regret of Tabular, Model-Free, Reinforcement Learning

arxiv url: http://arxiv.org/abs/2103.04416v1
Date: Sun, 7 Mar 2021 18:20:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-09 19:32:13.637530
Title: The Effect of Q-function Reuse on the Total Regret of Tabular, Model-Free, Reinforcement Learning
Title（参考訳）: モデルなし強化学習におけるQ-関数の再利用がトータルレグレットに及ぼす影響
Authors: Volodymyr Tkachuk, Sriram Ganapathi Subramanian, Matthew E. Taylor
Abstract要約: q$-関数再利用は、学習のサンプル複雑さを減らすための転送学習方法である。 UCB-Hoeffdingアルゴリズムを用いた$Q$-learningに適用した場合の$Q$-functionの再利用の有効性に関する理論的知見を提供する。 q$-関数の再利用がucb-hoeffdingアルゴリズムによる$q$-learningに適用された場合、状態やアクション空間とは無関係な後悔があることを示すことが私たちの大きな貢献です。
参考スコア（独自算出の注目度）: 16.814435237303076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Some reinforcement learning methods suffer from high sample complexity causing them to not be practical in real-world situations. $Q$-function reuse, a transfer learning method, is one way to reduce the sample complexity of learning, potentially improving usefulness of existing algorithms. Prior work has shown the empirical effectiveness of $Q$-function reuse for various environments when applied to model-free algorithms. To the best of our knowledge, there has been no theoretical work showing the regret of $Q$-function reuse when applied to the tabular, model-free setting. We aim to bridge the gap between theoretical and empirical work in $Q$-function reuse by providing some theoretical insights on the effectiveness of $Q$-function reuse when applied to the $Q$-learning with UCB-Hoeffding algorithm. Our main contribution is showing that in a specific case if $Q$-function reuse is applied to the $Q$-learning with UCB-Hoeffding algorithm it has a regret that is independent of the state or action space. We also provide empirical results supporting our theoretical findings.
Abstract（参考訳）: 一部の強化学習方法は、実世界では実用的ではない高いサンプル複雑性に苦しんでいます。転送学習メソッドである$Q$-functionの再利用は、学習のサンプル複雑さを低減し、既存のアルゴリズムの有用性を向上させる1つの方法です。これまでの研究は、モデルフリーアルゴリズムに適用した場合、様々な環境における$Q$-functionの再利用の実証的な効果を示してきた。私たちの知る限りでは、表型でモデルフリーな設定に適用される場合、$q$-関数再利用の後悔を示す理論的研究は存在しません。 UCB-Hoeffdingアルゴリズムを用いた$Q$-learningに適用した場合の$Q$-functionの再利用効果に関する理論的知見を提供することで、$Q$-functionの再利用における理論的作業と経験的作業のギャップを埋めることを目指している。 q$-関数の再利用がucb-hoeffdingアルゴリズムによる$q$-learningに適用された場合、状態やアクション空間とは無関係な後悔があることを示すことが私たちの大きな貢献です。また,理論的な知見を裏付ける実証的な結果も提供する。

関連論文リスト

Provably Efficient and Agile Randomized Q-Learning [35.14581235983678]
我々は、サンプリングベースの探索をアジャイル、ステップワイド、ポリシー更新と統合した新しいQ-ラーニングアルゴリズムをRandomizedQと呼ぶ。経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-06-30T16:08:29Z)
Towards Understanding the Benefit of Multitask Representation Learning in Decision Process [47.57497888077687]
強化学習(RL)におけるサンプル効率向上のための多タスク表現学習(MRL)が主流となっている。本研究は,テキストを未知の非線形表現に拡張し,そのメカニズムを網羅的に分析することで,そのギャップを埋めようとしている。我々は、この手法が、M$別のタスクを学習する際の下位境界よりも優れており、一般関数クラスにおけるMRLの有効性の最初の実証となることを正式に証明する。
論文参考訳（メタデータ） (2025-03-01T04:29:22Z)
Variance Reduction via Resampling and Experience Replay [6.66746639974303]
モデルが$U$-と$V$-statisticsを使ってリプレイを経験する理論的枠組みを提案する。本稿では,LSTDアルゴリズムとPDEに基づくモデルフリーアルゴリズムを用いて,政策評価タスクに適用する。我々は,このフレームワークをカーネルリッジレグレッションに拡張し,経験リプレイに基づく手法により従来の$O(n3)$から計算コストを削減し,分散を同時に低減することを示した。
論文参考訳（メタデータ） (2025-02-01T18:46:08Z)
Efficient Function Placement in Virtual Networks: An Online Learning Approach [7.206295719344847]
本稿では,仮想関数配置問題のモデルと,マルチアームバンディットに基づくアイデアを用いた新しいアルゴリズムを提案する。これらのアルゴリズムは最適な配置ポリシーを迅速に学習し、その後悔は高い確率で実現可能性制約を尊重しながら、少なくとも$O(N M sqrtTln T )$で増大する。
論文参考訳（メタデータ） (2024-10-17T16:03:43Z)
Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文参考訳（メタデータ） (2024-04-25T13:56:05Z)
Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-18T21:52:14Z)
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。 i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文参考訳（メタデータ） (2024-03-04T15:07:33Z)
Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-19T19:53:58Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Batch Value-function Approximation with Only Realizability [17.692408242465763]
バッチ強化学習(RL):探索データセットからQstar$を学習する。我々のアルゴリズムであるBVFTは、トーナメントの手順を通じて硬さ予想(探索データというより強い概念の下では)を破る。また、BVFTが他の拡張と開問題の間のモデル選択にどのように適用できるかについても論じる。
論文参考訳（メタデータ） (2020-08-11T20:09:37Z)
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文参考訳（メタデータ） (2020-05-21T17:36:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。