Fugu-MT 論文翻訳(概要): Imitation Learning in Discounted Linear MDPs without exploration assumptions

論文の概要: Imitation Learning in Discounted Linear MDPs without exploration assumptions

arxiv url: http://arxiv.org/abs/2405.02181v2
Date: Fri, 23 Aug 2024 09:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 19:37:13.506963
Title: Imitation Learning in Discounted Linear MDPs without exploration assumptions
Title（参考訳）: 探索仮定を伴わない離散線形MDPにおける模倣学習
Authors: Luca Viano, Stratis Skoulakis, Volkan Cevher,
Abstract要約: ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
参考スコア（独自算出の注目度）: 58.81226849657474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a new algorithm for imitation learning in infinite horizon linear MDPs dubbed ILARL which greatly improves the bound on the number of trajectories that the learner needs to sample from the environment. In particular, we remove exploration assumptions required in previous works and we improve the dependence on the desired accuracy $\epsilon$ from $\mathcal{O}(\epsilon^{-5})$ to $\mathcal{O}(\epsilon^{-4})$. Our result relies on a connection between imitation learning and online learning in MDPs with adversarial losses. For the latter setting, we present the first result for infinite horizon linear MDP which may be of independent interest. Moreover, we are able to provide a strengthen result for the finite horizon case where we achieve $\mathcal{O}(\epsilon^{-2})$. Numerical experiments with linear function approximation shows that ILARL outperforms other commonly used algorithms.
Abstract（参考訳）: ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案し,学習者が環境からサンプリングするトラジェクトリの数に大きく依存することを示す。特に、以前の研究で必要とされる探索仮定を除去し、所望の精度$\epsilon$から$\mathcal{O}(\epsilon^{-5})$から$\mathcal{O}(\epsilon^{-4})$への依存を改善する。本研究の結果は,MDPにおける模倣学習とオンライン学習の関連性に依拠している。後者の設定では、独立な興味を持つかもしれない無限水平線型 MDP に対する最初の結果を示す。さらに、有限地平線の場合、$\mathcal{O}(\epsilon^{-2})$を達成できるような強い結果が得られる。線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。

関連論文リスト

Rate optimal learning of equilibria from data [63.14746189846806]
マルチエージェント・イミテーション・ラーニング(MAIL)における理論的ギャップは,非対話的MAILの限界を特徴づけ,ほぼ最適なサンプル複雑性を持つ最初の対話的アルゴリズムを提示することによって解決する。インタラクティブな設定では、報酬のない強化学習と対話型MAILを組み合わせたフレームワークを導入し、それをMAIL-WARMというアルゴリズムでインスタンス化する。我々は,我々の理論を裏付ける数値的な結果を提供し,グリッドワールドのような環境において,行動クローンが学習に失敗する状況を示す。
論文参考訳（メタデータ） (2025-10-10T12:28:35Z)
Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs [13.429541377715296]
マルコフ決定過程(MDP)におけるオフライン模倣学習の問題点について検討する。サドルポイントオフライン模倣学習(SPOIL)と呼ばれる新しいアルゴリズムを導入する。 SPOILは動作のクローンよりも優れ、最先端のアルゴリズムと競合する。
論文参考訳（メタデータ） (2025-05-26T13:10:27Z)
Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning [13.429541377715296]
無限水平割引線形マルコフ決定過程において, ほぼ最適後悔の保証を実現するための計算効率のよいアルゴリズムを提案する。正規化された近似的動的プログラミングスキームと組み合わせると、結果のアルゴリズムは、$tildemathcalO (sqrtd3 (1 - gamma)- 7 / 2 T)$, $T$ はサンプル遷移の総数、$gamma in (0,1)$ は割引係数、$d$ は特徴次元を後悔する。
論文参考訳（メタデータ） (2025-02-19T17:32:35Z)
Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文参考訳（メタデータ） (2024-05-10T09:58:47Z)
A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs [18.449996575976993]
無限水平割引設定における線形 MDP を用いたオフライン RL の原始双対アルゴリズムを提案する。本アルゴリズムは, 部分的データカバレッジを仮定した$O(epsilon-2)$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。我々はアルゴリズムをオフラインの制約付きRL設定で動作させ、追加の報酬信号に制約を課すように拡張する。
論文参考訳（メタデータ） (2024-02-07T00:33:11Z)
Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback [30.23951525723659]
本研究は,全情報フィードバック設定において,逆向きに損失が変化する低ランクMDPについて検討する。政策最適化に基づくアルゴリズムPOLOを提案し、$widetildeO(Kfrac56Afrac12dln (1+M)/ (1-gamma)2)$ regret guarantee。
論文参考訳（メタデータ） (2023-11-14T03:12:43Z)
Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文参考訳（メタデータ） (2023-05-22T11:45:23Z)
Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文参考訳（メタデータ） (2023-03-17T17:53:28Z)
Locally Differentially Private Reinforcement Learning for Linear Mixture Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-19T17:44:09Z)
Nearly Minimax Optimal Regret for Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation [95.80683238546499]
本論文では, 線形関数近似を用いた UCRL2 アルゴリズムの拡張として見ることのできる新しいアルゴリズム UCRL2-VTR を提案する。 Bernstein 型ボーナス付き UCRL2-VTR は $tildeO(dsqrtDT)$ の後悔を達成でき、$d$ は特徴写像の次元である。また、一致した下界$tildeOmega(dsqrtDT)$を証明し、提案したUCRL2-VTRが対数係数の最小値であることを示す。
論文参考訳（メタデータ） (2021-02-15T02:08:39Z)
Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文参考訳（メタデータ） (2021-02-12T14:22:05Z)
Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation [44.374427255708135]
線形関数近似を用いた無限水平平均逆設定でマルコフ決定過程を学習するための新しいアルゴリズムを開発した。まず,最適$widetildeO(sqrtT)$ regretの計算非効率アルゴリズムを提案する。次に,逆線形包帯から着想を得て,$widetildeO(sqrtT)$ regretのアルゴリズムを新たに開発した。
論文参考訳（メタデータ） (2020-07-23T08:23:44Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。