論文の概要: Iteratively Learn Diverse Strategies with State Distance Information
- arxiv url: http://arxiv.org/abs/2310.14509v1
- Date: Mon, 23 Oct 2023 02:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:11:49.657693
- Title: Iteratively Learn Diverse Strategies with State Distance Information
- Title(参考訳): 状態距離情報を用いた多様な戦略の反復学習
- Authors: Wei Fu, Weihua Du, Jingwei Li, Sunli Chen, Jingzhao Zhang, Yi Wu
- Abstract要約: 複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
- 参考スコア(独自算出の注目度): 18.509323383456707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In complex reinforcement learning (RL) problems, policies with similar
rewards may have substantially different behaviors. It remains a fundamental
challenge to optimize rewards while also discovering as many diverse strategies
as possible, which can be crucial in many practical applications. Our study
examines two design choices for tackling this challenge, i.e., diversity
measure and computation framework. First, we find that with existing diversity
measures, visually indistinguishable policies can still yield high diversity
scores. To accurately capture the behavioral difference, we propose to
incorporate the state-space distance information into the diversity measure. In
addition, we examine two common computation frameworks for this problem, i.e.,
population-based training (PBT) and iterative learning (ITR). We show that
although PBT is the precise problem formulation, ITR can achieve comparable
diversity scores with higher computation efficiency, leading to improved
solution quality in practice. Based on our analysis, we further combine ITR
with two tractable realizations of the state-distance-based diversity measures
and develop a novel diversity-driven RL algorithm, State-based Intrinsic-reward
Policy Optimization (SIPO), with provable convergence properties. We
empirically examine SIPO across three domains from robot locomotion to
multi-agent games. In all of our testing environments, SIPO consistently
produces strategically diverse and human-interpretable policies that cannot be
discovered by existing baselines.
- Abstract(参考訳): 複雑な強化学習(RL)問題では、同様の報酬を持つポリシーは、実質的に異なる振る舞いを持つ可能性がある。
報酬を最適化し、可能な限り多くの多様な戦略を発見しながら、多くの実用的なアプリケーションにおいて重要な課題である。
本研究は,この課題に取り組むための2つの設計選択,すなわち多様性尺度と計算フレームワークについて検討する。
まず、既存の多様性対策では、視覚的に区別できない政策は依然として高い多様性のスコアを得られる。
行動差を正確に把握するために, 状態空間距離情報をダイバーシティ尺度に組み込むことを提案する。
さらに,この問題に対する共通計算フレームワークである人口ベーストレーニング(pbt)と反復学習(itr)について検討した。
PBTは正確な問題定式化であるが、ITRは高い計算効率で同等の多様性のスコアを達成でき、実際に解の質が向上することを示した。
本稿では,ITRと国家距離に基づく多様性尺度の抽出可能な2つの実現法を更に組み合わせ,新しい多様性駆動型RLアルゴリズムである国家固有回帰政策最適化(SIPO)を立証可能な収束特性と組み合わせた。
ロボットロコモーションからマルチエージェントゲームまで,3分野にわたるsipoを実証的に検討した。
当社のすべてのテスト環境において、SIPOは、既存のベースラインでは見つからない戦略的に多様で人間解釈可能なポリシーを一貫して作り出しています。
関連論文リスト
- Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality [26.69352834457256]
我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:40:52Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games [44.30509625560908]
オープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
行動多様性(BD)と反応多様性(RD)の両方に基づくマルチエージェントオープンエンド学習における多様性の統一尺度を提案する。
現在,多くの多様性対策が,BDやRDのカテゴリの1つに該当するが,両方ではないことを示す。
この統一された多様性尺度を用いて、オープンエンド学習における最良の応答を求める際に、対応する多様性促進目標と人口効果度を設計する。
論文 参考訳(メタデータ) (2021-06-09T10:11:06Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。