論文の概要: Constructing an Optimal Behavior Basis for the Option Keyboard
- arxiv url: http://arxiv.org/abs/2505.00787v1
- Date: Thu, 01 May 2025 18:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.793421
- Title: Constructing an Optimal Behavior Basis for the Option Keyboard
- Title(参考訳): オプションキーボードのための最適行動基底の構成
- Authors: Lucas N. Alegre, Ana L. C. Bazzan, André Barreto, Bruno C. da Silva,
- Abstract要約: 一般政策改善(GPI)は、一連の基本方針を組み合わせて、少なくとも良い新しい政策を生成することで、この問題に対処する。
Option Keyboard (OK) は,少なくとも優れた – 多くの場合はよい – ポリシを生成することで,GPIの改善を実現している。
任意の線形タスクに対する最適解のゼロショット識別を可能にする、最適な基本ポリシーのセットが存在するか?
新たなタスクの最適性を確保するために必要な基本方針の数を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 15.595163824752769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning aims to quickly identify solutions for new tasks with minimal or no additional interaction with the environment. Generalized Policy Improvement (GPI) addresses this by combining a set of base policies to produce a new one that is at least as good -- though not necessarily optimal -- as any individual base policy. Optimality can be ensured, particularly in the linear-reward case, via techniques that compute a Convex Coverage Set (CCS). However, these are computationally expensive and do not scale to complex domains. The Option Keyboard (OK) improves upon GPI by producing policies that are at least as good -- and often better. It achieves this through a learned meta-policy that dynamically combines base policies. However, its performance critically depends on the choice of base policies. This raises a key question: is there an optimal set of base policies -- an optimal behavior basis -- that enables zero-shot identification of optimal solutions for any linear tasks? We solve this open problem by introducing a novel method that efficiently constructs such an optimal behavior basis. We show that it significantly reduces the number of base policies needed to ensure optimality in new tasks. We also prove that it is strictly more expressive than a CCS, enabling particular classes of non-linear tasks to be solved optimally. We empirically evaluate our technique in challenging domains and show that it outperforms state-of-the-art approaches, increasingly so as task complexity increases.
- Abstract(参考訳): マルチタスク強化学習は、環境との相互作用を最小あるいは全く必要とせずに、新しいタスクのソリューションを素早く特定することを目的としている。
一般政策改善(GPI)は、基本方針のセットを組み合わせることでこの問題に対処する。
最適性は、特に線形回帰の場合、凸被覆集合(CCS)を計算する技術によって保証される。
しかし、これらは計算コストが高く、複雑な領域にスケールしない。
Option Keyboard (OK) は,少なくとも優れた – 多くの場合はよい – ポリシを生成することで,GPIの改善を実現している。
これは、ベースポリシーを動的に組み合わせた学習されたメタ政治によって実現される。
しかし、その性能は基本方針の選択に大きく依存する。
これは重要な疑問を提起する: 任意の線形タスクに対して最適解をゼロショットで識別できる最適な基本方針 -- 最適な行動基盤 -- が存在するか?
我々はこのような最適な行動基盤を効率的に構築する新しい手法を導入することで、このオープンな問題を解決する。
新たなタスクの最適性を確保するために必要な基本方針の数を大幅に削減できることを示す。
また、CCSよりも厳密に表現的であり、非線形タスクの特定のクラスを最適に解けることを証明した。
課題領域における我々の手法を実証的に評価し、タスクの複雑さが増大するにつれて、最先端のアプローチよりも優れていることを示す。
関連論文リスト
- Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Optimistic Natural Policy Gradient: a Simple Efficient Policy
Optimization Framework for Online RL [23.957148537567146]
本稿では,オンラインRLのための最適化NPGという,シンプルな効率的なポリシー最適化フレームワークを提案する。
$d$次元線形 MDP の場合、Optimistic NPG は計算効率が良く、$tildeO(d2/varepsilon3)$サンプル内で $varepsilon$-Optimal Policy を学ぶ。
論文 参考訳(メタデータ) (2023-05-18T15:19:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。