論文の概要: Off-Belief Learning
- arxiv url: http://arxiv.org/abs/2103.04000v1
- Date: Sat, 6 Mar 2021 01:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 13:34:55.268675
- Title: Off-Belief Learning
- Title(参考訳): オフビリーフ学習
- Authors: Hengyuan Hu, Adam Lerer, Brandon Cui, Luis Pineda, David Wu, Noam
Brown, Jakob Foerster
- Abstract要約: 完全に根ざした最適な政策を学ぶために、OBL(off-belief Learning)を提示します。
OBLは独自のポリシーに収束し、ゼロショット調整により適している。
OBLは単純な玩具セットとヒト/AI/ゼロショット調整のベンチマークの両方において強い性能を示す。
- 参考スコア(独自算出の注目度): 21.98027225621791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard problem setting in Dec-POMDPs is self-play, where the goal is to
find a set of policies that play optimally together. Policies learned through
self-play may adopt arbitrary conventions and rely on multi-step counterfactual
reasoning based on assumptions about other agents' actions and thus fail when
paired with humans or independently trained agents. In contrast, no current
methods can learn optimal policies that are fully grounded, i.e., do not rely
on counterfactual information from observing other agents' actions. To address
this, we present off-belief learning} (OBL): at each time step OBL agents
assume that all past actions were taken by a given, fixed policy ($\pi_0$), but
that future actions will be taken by an optimal policy under these same
assumptions. When $\pi_0$ is uniform random, OBL learns the optimal grounded
policy. OBL can be iterated in a hierarchy, where the optimal policy from one
level becomes the input to the next. This introduces counterfactual reasoning
in a controlled manner. Unlike independent RL which may converge to any
equilibrium policy, OBL converges to a unique policy, making it more suitable
for zero-shot coordination. OBL can be scaled to high-dimensional settings with
a fictitious transition mechanism and shows strong performance in both a simple
toy-setting and the benchmark human-AI/zero-shot coordination problem Hanabi.
- Abstract(参考訳): Dec-POMDPの標準的な問題設定はセルフプレイであり、最適に連携するポリシーのセットを見つけることが目標である。
自己再生を通じて学んだ政策は、任意の規則を採用し、他のエージェントの行動に関する仮定に基づいて多段階の反事実的推論に依存する可能性があるため、人間または独立訓練されたエージェントとペアリングすると失敗する。
対照的に、現在の方法は、完全に根拠づけられている最適な政策を学ぶことはできません。つまり、他のエージェントの行動を観察することから反実情報に頼ることはありません。
これに対処するために、OBL(off-belief Learning})を提示する:各ステップでOBLエージェントは、過去のすべてのアクションが与えられた固定ポリシー($\pi_0$)によって取られたと仮定するが、将来のアクションはこれらの同じ仮定の下で最適なポリシーによって取られる。
$\pi_0$ が一様ランダムであるとき、OBL は最適接地ポリシーを学習する。
OBLは階層で反復することができ、1つのレベルから最適なポリシーが次のレベルへの入力になります。
これは反事実推論を制御的に導入する。
任意の平衡政策に収束する独立したrlとは異なり、oblは一意な方針に収束し、ゼロショット協調に適する。
OBLは架空の遷移機構で高次元設定にスケールすることができ、単純なおもちゃ設定とベンチマークのヒューマンAI/ゼロショットコーディネート問題Hanabiの両方で強力なパフォーマンスを示します。
関連論文リスト
- AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。