論文の概要: Connected Superlevel Set in (Deep) Reinforcement Learning and its
Application to Minimax Theorems
- arxiv url: http://arxiv.org/abs/2303.12981v3
- Date: Sat, 30 Sep 2023 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:56:44.249795
- Title: Connected Superlevel Set in (Deep) Reinforcement Learning and its
Application to Minimax Theorems
- Title(参考訳): 深部強化学習における連結超レベル集合とそのミニマックス理論への応用
- Authors: Sihan Zeng, Thinh T. Doan, Justin Romberg
- Abstract要約: 政策パラメータに関する目的関数の超レベル集合は、常に連結集合であることを示す。
本稿では,政策パラメータと報酬の関数としての最適化目標が,より強い「等価性」特性を満たすことを示す。
このような結果が文献に現れるのはこれが初めてである。
- 参考スコア(独自算出の注目度): 15.632127097145881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this paper is to improve the understanding of the optimization
landscape for policy optimization problems in reinforcement learning.
Specifically, we show that the superlevel set of the objective function with
respect to the policy parameter is always a connected set both in the tabular
setting and under policies represented by a class of neural networks. In
addition, we show that the optimization objective as a function of the policy
parameter and reward satisfies a stronger "equiconnectedness" property. To our
best knowledge, these are novel and previously unknown discoveries.
We present an application of the connectedness of these superlevel sets to
the derivation of minimax theorems for robust reinforcement learning. We show
that any minimax optimization program which is convex on one side and is
equiconnected on the other side observes the minimax equality (i.e. has a Nash
equilibrium). We find that this exact structure is exhibited by an interesting
robust reinforcement learning problem under an adversarial reward attack, and
the validity of its minimax equality immediately follows. This is the first
time such a result is established in the literature.
- Abstract(参考訳): 本研究の目的は,強化学習における政策最適化問題に対する最適化環境の理解を深めることである。
具体的には、ポリシーパラメータに関する目的関数の超レベル集合が、表的な設定とニューラルネットワークのクラスによって表されるポリシーの両方で常に連結集合であることを示す。
さらに,政策パラメータと報酬の関数としての最適化目標が,より強い「等価性」特性を満たすことを示す。
私たちの知る限りでは、これらは新しい発見であり、以前は知られていなかった。
本稿では,これらの超レベル集合の連結性を,ロバスト強化学習のためのミニマックス定理の導出に適用する。
一方の面が凸で他方の面が等連結な任意のミニマックス最適化プログラムがミニマックス等価性(すなわちナッシュ平衡)を観測することを示す。
この構造は,敵の報酬攻撃下での興味深い強固な強化学習問題によって示され,そのミニマックス等式の有効性は直ちに従う。
このような結果が文献に定着するのはこれが初めてである。
関連論文リスト
- A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Topological Guided Actor-Critic Modular Learning of Continuous Systems
with Temporal Objectives [2.398608007786179]
本研究では,線形時間論理の高レベル仕様を与えられた連続状態力学系の公式なポリシー合成について検討する。
ニューラルネットワークを用いて、ハイブリッド製品状態空間の値関数とポリシー関数を近似する。
論文 参考訳(メタデータ) (2023-04-20T01:36:05Z) - Unsupervised Learning for Combinatorial Optimization with Principled
Objective Relaxation [19.582494782591386]
本研究は,最適化(CO)問題に対する教師なし学習フレームワークを提案する。
我々の重要な貢献は、緩和された目的がエントリーワイドな凹凸を満たすならば、低い最適化損失は最終積分解の品質を保証するという観察である。
特に、この観察は、対象が明示的に与えられていないアプリケーションにおいて、事前にモデル化される必要がある場合に、対象モデルの設計を導くことができる。
論文 参考訳(メタデータ) (2022-07-13T06:44:17Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - The Landscape of the Proximal Point Method for Nonconvex-Nonconcave
Minimax Optimization [10.112779201155005]
Minimax PPMは、堅牢で強化された学習、GANなど、マシンラーニングの中心的なツールになっています。
これらの応用はしばしば非可逆であるが、既存の理論ではそれと根本的な困難を識別できない。
論文 参考訳(メタデータ) (2020-06-15T18:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。