論文の概要: Provably Efficient Algorithms for Multi-Objective Competitive RL
- arxiv url: http://arxiv.org/abs/2102.03192v1
- Date: Fri, 5 Feb 2021 14:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 13:01:26.248312
- Title: Provably Efficient Algorithms for Multi-Objective Competitive RL
- Title(参考訳): 多目的競合RLの効率的なアルゴリズム
- Authors: Tiancheng Yu, Yi Tian, Jingzhao Zhang, Suvrit Sra
- Abstract要約: エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
- 参考スコア(独自算出の注目度): 54.22598924633369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study multi-objective reinforcement learning (RL) where an agent's reward
is represented as a vector. In settings where an agent competes against
opponents, its performance is measured by the distance of its average return
vector to a target set. We develop statistically and computationally efficient
algorithms to approach the associated target set. Our results extend
Blackwell's approachability theorem (Blackwell, 1956) to tabular RL, where
strategic exploration becomes essential. The algorithms presented are adaptive;
their guarantees hold even without Blackwell's approachability condition. If
the opponents use fixed policies, we give an improved rate of approaching the
target set while also tackling the more ambitious goal of simultaneously
minimizing a scalar cost function. We discuss our analysis for this special
case by relating our results to previous works on constrained RL. To our
knowledge, this work provides the first provably efficient algorithms for
vector-valued Markov games and our theoretical guarantees are near-optimal.
- Abstract(参考訳): エージェントの報酬をベクトルとして表現するマルチオブジェクティブ強化学習(RL)について検討する。
エージェントが相手と競合する設定では、そのパフォーマンスは、その平均戻りベクトルとターゲットセットの距離によって測定されます。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
我々の結果はブラックウェルのアプローチ可能性定理(blackwell, 1956)を、戦略的探索が必須となる表式rlに拡張した。
アルゴリズムは適応的であり、その保証はブラックウェルのアプローチ可能性条件なしに保たれる。
対戦相手が固定ポリシーを使用する場合、目標セットに接近する割合が向上し、同時にスカラーコスト関数を最小化するというより野心的な目標にも取り組みます。
本稿では,この特殊な場合について,制約付きrlに関する先行研究と結果を関連づけて解析を行う。
我々の知る限り、この研究はベクトル値のマルコフゲームに対する最初の証明可能な効率的なアルゴリズムを提供し、理論上の保証はほぼ最適である。
関連論文リスト
- Hierarchical Document Parsing via Large Margin Feature Matching and Heuristics [0.0]
我々は,AAAI-25 VRD-IUチャレンジに対する解決策を提示する。
深層学習に基づくマッチング戦略と強欲なアルゴリズムを組み合わせることで、精度を大幅に向上する。
本手法は,文書構造解析において,個人用リーダボード上で0.98904の精度を実現し,その有効性を実証する。
論文 参考訳(メタデータ) (2025-02-11T10:37:01Z) - EVAL: EigenVector-based Average-reward Learning [4.8748194765816955]
ニューラルネットワークによる関数近似に基づくアプローチを開発する。
エントロピー正則化を使わずに, 平均回帰RL問題を解く方法を示す。
論文 参考訳(メタデータ) (2025-01-15T19:00:45Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Why So Pessimistic? Estimating Uncertainties for Offline RL through
Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。
我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。
D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文 参考訳(メタデータ) (2022-05-27T01:30:12Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。