論文の概要: A Ranking Game for Imitation Learning
- arxiv url: http://arxiv.org/abs/2202.03481v1
- Date: Mon, 7 Feb 2022 19:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:06:27.497900
- Title: A Ranking Game for Imitation Learning
- Title(参考訳): 模倣学習のためのランキングゲーム
- Authors: Harshit Sikchi, Akanksha Saran, Wonjoon Goo, Scott Niekum
- Abstract要約: 模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
- 参考スコア(独自算出の注目度): 22.028680861819215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for imitation learning - treating imitation as a
two-player ranking-based Stackelberg game between a $\textit{policy}$ and a
$\textit{reward}$ function. In this game, the reward agent learns to satisfy
pairwise performance rankings within a set of policies, while the policy agent
learns to maximize this reward. This game encompasses a large subset of both
inverse reinforcement learning (IRL) methods and methods which learn from
offline preferences. The Stackelberg game formulation allows us to use
optimization methods that take the game structure into account, leading to more
sample efficient and stable learning dynamics compared to existing IRL methods.
We theoretically analyze the requirements of the loss function used for ranking
policy performances to facilitate near-optimal imitation learning at
equilibrium. We use insights from this analysis to further increase sample
efficiency of the ranking game by using automatically generated rankings or
with offline annotated rankings. Our experiments show that the proposed method
achieves state-of-the-art sample efficiency and is able to solve previously
unsolvable tasks in the Learning from Observation (LfO) setting.
- Abstract(参考訳): 擬似学習のための新しいフレームワークを提案する - 模倣を2プレイヤーのランキングベースのStackelbergゲームとして、$\textit{policy}$と$\textit{reward}$関数の間で扱う。
このゲームでは、報酬エージェントは一連のポリシー内でペアワイズパフォーマンスランキングを満たすことを学習し、政策エージェントは、この報酬を最大化する。
このゲームは、オフラインの好みから学習するirl(inverse reinforcement learning)メソッドとメソッドの両方を包含する。
stackelbergゲーム定式化により,ゲーム構造を考慮した最適化手法の使用が可能となり,既存のirl手法と比較して,よりサンプル効率が向上し,安定した学習ダイナミクスが実現される。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
本研究では,自動生成したランキングやオフラインのアノテートランキングを用いて,ランキングゲームのサンプル効率をさらに向上させる。
実験の結果,提案手法は最先端のサンプル効率を実現し,LfO(Learning from Observation)設定における未解決課題を解くことができることがわかった。
関連論文リスト
- Finite-Sample Guarantees for Best-Response Learning Dynamics in Zero-Sum Matrix Games [22.380293155135096]
2人のプレイヤーゼロサム行列ゲームに対する最適応答型学習ダイナミクスについて検討する。
我々は,各プレイヤーがゲームと相手の戦略について持っている情報の種類によって区別される2つの設定について検討する。
論文 参考訳(メタデータ) (2024-07-29T15:56:49Z) - Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning [4.698846136465861]
我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
論文 参考訳(メタデータ) (2023-02-21T15:16:12Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。