論文の概要: Policy-Value Alignment and Robustness in Search-based Multi-Agent
Learning
- arxiv url: http://arxiv.org/abs/2301.11857v1
- Date: Fri, 27 Jan 2023 17:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 14:53:00.484519
- Title: Policy-Value Alignment and Robustness in Search-based Multi-Agent
Learning
- Title(参考訳): 検索型マルチエージェント学習におけるポリシ・バリューアライメントとロバスト性
- Authors: Niko A. Grupen, Michael Hanlon, Alexis Hao, Daniel D. Lee, Bart Selman
- Abstract要約: 検索と学習を組み合わせた大規模AIシステムは、ゲームプレイにおける超人的なパフォーマンスに達している。
我々は,このアルゴリズム,AlphaZeroについて検討し,探索の性質に関連する2つの現象を同定する。
我々は、AlphaZeroにおけるポリシー値アライメントと値ロバスト性を改善する新しい方法であるVISA-VISを導出する。
- 参考スコア(独自算出の注目度): 20.57148820043237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale AI systems that combine search and learning have reached
super-human levels of performance in game-playing, but have also been shown to
fail in surprising ways. The brittleness of such models limits their efficacy
and trustworthiness in real-world deployments. In this work, we systematically
study one such algorithm, AlphaZero, and identify two phenomena related to the
nature of exploration. First, we find evidence of policy-value misalignment --
for many states, AlphaZero's policy and value predictions contradict each
other, revealing a tension between accurate move-selection and value estimation
in AlphaZero's objective. Further, we find inconsistency within AlphaZero's
value function, which causes it to generalize poorly, despite its policy
playing an optimal strategy. From these insights we derive VISA-VIS: a novel
method that improves policy-value alignment and value robustness in AlphaZero.
Experimentally, we show that our method reduces policy-value misalignment by up
to 76%, reduces value generalization error by up to 50%, and reduces average
value error by up to 55%.
- Abstract(参考訳): 検索と学習を組み合わせた大規模なAIシステムは、ゲームプレイで超人的なパフォーマンスを達成したが、驚くべき方法で失敗することも示されている。
このようなモデルの脆さは、実際のデプロイメントにおける有効性と信頼性を制限する。
本研究では,このアルゴリズムであるAlphaZeroを体系的に研究し,探索の性質に関連する2つの現象を同定する。
まず、多くの州において、alphazeroの政策と価値予測は互いに矛盾しており、alphazeroの目的における正確な移動選択と価値推定の間の緊張関係を明らかにする。
さらに,AlphaZeroの値関数の不整合は,その方針が最適戦略であるにもかかわらず,不整合を生じさせる。
これらの知見から,AlphaZero におけるポリシ値アライメントと値ロバスト性を改善する新しい手法 VISA-VIS を導出する。
実験により,提案手法は,ポリシー値の不一致を最大76%削減し,値一般化誤差を最大50%低減し,平均値誤差を最大55%低減することを示した。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - CASA-B: A Unified Framework of Model-Free Reinforcement Learning [1.4566990078034239]
CASA-Bは、状態値、状態アクション値、ポリシーを見積もるアクター批判的なフレームワークです。
我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。
行動方針の任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。
論文 参考訳(メタデータ) (2021-05-09T12:45:13Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - The Value-Improvement Path: Towards Better Representations for
Reinforcement Learning [46.70945548475075]
我々は、RLエージェントが直面する値予測問題は、独立して対処すべきではなく、単一の、全体論的、予測問題として扱うべきだと論じる。
RLアルゴリズムは、少なくとも概ね最適なポリシーに向けて改善される一連のポリシーを生成する。
我々は、過去の価値改善パスにまたがる表現が、将来の政策改善に正確な価値評価をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-03T12:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。