論文の概要: Off-Belief Learning
- arxiv url: http://arxiv.org/abs/2103.04000v1
- Date: Sat, 6 Mar 2021 01:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 13:34:55.268675
- Title: Off-Belief Learning
- Title(参考訳): オフビリーフ学習
- Authors: Hengyuan Hu, Adam Lerer, Brandon Cui, Luis Pineda, David Wu, Noam
Brown, Jakob Foerster
- Abstract要約: 完全に根ざした最適な政策を学ぶために、OBL(off-belief Learning)を提示します。
OBLは独自のポリシーに収束し、ゼロショット調整により適している。
OBLは単純な玩具セットとヒト/AI/ゼロショット調整のベンチマークの両方において強い性能を示す。
- 参考スコア(独自算出の注目度): 21.98027225621791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard problem setting in Dec-POMDPs is self-play, where the goal is to
find a set of policies that play optimally together. Policies learned through
self-play may adopt arbitrary conventions and rely on multi-step counterfactual
reasoning based on assumptions about other agents' actions and thus fail when
paired with humans or independently trained agents. In contrast, no current
methods can learn optimal policies that are fully grounded, i.e., do not rely
on counterfactual information from observing other agents' actions. To address
this, we present off-belief learning} (OBL): at each time step OBL agents
assume that all past actions were taken by a given, fixed policy ($\pi_0$), but
that future actions will be taken by an optimal policy under these same
assumptions. When $\pi_0$ is uniform random, OBL learns the optimal grounded
policy. OBL can be iterated in a hierarchy, where the optimal policy from one
level becomes the input to the next. This introduces counterfactual reasoning
in a controlled manner. Unlike independent RL which may converge to any
equilibrium policy, OBL converges to a unique policy, making it more suitable
for zero-shot coordination. OBL can be scaled to high-dimensional settings with
a fictitious transition mechanism and shows strong performance in both a simple
toy-setting and the benchmark human-AI/zero-shot coordination problem Hanabi.
- Abstract(参考訳): Dec-POMDPの標準的な問題設定はセルフプレイであり、最適に連携するポリシーのセットを見つけることが目標である。
自己再生を通じて学んだ政策は、任意の規則を採用し、他のエージェントの行動に関する仮定に基づいて多段階の反事実的推論に依存する可能性があるため、人間または独立訓練されたエージェントとペアリングすると失敗する。
対照的に、現在の方法は、完全に根拠づけられている最適な政策を学ぶことはできません。つまり、他のエージェントの行動を観察することから反実情報に頼ることはありません。
これに対処するために、OBL(off-belief Learning})を提示する:各ステップでOBLエージェントは、過去のすべてのアクションが与えられた固定ポリシー($\pi_0$)によって取られたと仮定するが、将来のアクションはこれらの同じ仮定の下で最適なポリシーによって取られる。
$\pi_0$ が一様ランダムであるとき、OBL は最適接地ポリシーを学習する。
OBLは階層で反復することができ、1つのレベルから最適なポリシーが次のレベルへの入力になります。
これは反事実推論を制御的に導入する。
任意の平衡政策に収束する独立したrlとは異なり、oblは一意な方針に収束し、ゼロショット協調に適する。
OBLは架空の遷移機構で高次元設定にスケールすることができ、単純なおもちゃ設定とベンチマークのヒューマンAI/ゼロショットコーディネート問題Hanabiの両方で強力なパフォーマンスを示します。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Oracle-Efficient Reinforcement Learning for Max Value Ensembles [7.404901768256101]
大または無限の状態空間における強化学習(RL)は、理論上、実験的に困難である。
この作業では、$textitmax-following Policy$と競合することを目指しています。
我々の主な成果は、構成ポリシーのみにアクセスすると、最大フォローポリシーと競合する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-27T01:08:23Z) - AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。