論文の概要: Self-Confirming Transformer for Locally Consistent Online Adaptation in
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.04579v1
- Date: Fri, 6 Oct 2023 20:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:30:05.377180
- Title: Self-Confirming Transformer for Locally Consistent Online Adaptation in
Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における局所整合オンライン適応のための自己確認トランスフォーマー
- Authors: Tao Li, Juan Guevara, Xinghong Xie, and Quanyan Zhu
- Abstract要約: オフライン強化学習は、オフラインデータセットとオンライン環境の間の分散シフトに悩まされる。
本研究は,オンライン非定常性に対処するオフライン変圧器訓練における自己確認損失(SCL)を提案する。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) leverages previously collected data to
extract policies that return satisfying performance in online environments.
However, offline RL suffers from the distribution shift between the offline
dataset and the online environment. In the multi-agent RL (MARL) setting, this
distribution shift may arise from the nonstationary opponents (exogenous agents
beyond control) in the online testing who display distinct behaviors from those
recorded in the offline dataset. Hence, the key to the broader deployment of
offline MARL is the online adaptation to nonstationary opponents. Recent
advances in large language models have demonstrated the surprising
generalization ability of the transformer architecture in sequence modeling,
which prompts one to wonder \textit{whether the offline-trained transformer
policy adapts to nonstationary opponents during online testing}. This work
proposes the self-confirming loss (SCL) in offline transformer training to
address the online nonstationarity, which is motivated by the self-confirming
equilibrium (SCE) in game theory. The gist is that the transformer learns to
predict the opponents' future moves based on which it acts accordingly. As a
weaker variant of Nash equilibrium (NE), SCE (equivalently, SCL) only requires
local consistency: the agent's local observations do not deviate from its
conjectures, leading to a more adaptable policy than the one dictated by NE
focusing on global optimality. We evaluate the online adaptability of the
self-confirming transformer (SCT) by playing against nonstationary opponents
employing a variety of policies, from the random one to the benchmark MARL
policies. Experimental results demonstrate that SCT can adapt to nonstationary
opponents online, achieving higher returns than vanilla transformers and
offline MARL baselines.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集したデータを利用して、オンライン環境における満足度の高いパフォーマンスを返すポリシーを抽出する。
しかし、オフラインRLはオフラインデータセットとオンライン環境の間の分散シフトに悩まされている。
マルチエージェントRL(MARL)設定では、この分散シフトはオフラインデータセットに記録されたものと異なる振る舞いを示すオンラインテストにおいて、非定常的(制御以外の外在的エージェント)から生じる可能性がある。
したがって、オフラインMARLのより広範な展開の鍵は、静止しない相手へのオンライン適応である。
大規模言語モデルの最近の進歩は、シーケンスモデリングにおけるトランスフォーマーアーキテクチャの驚くべき一般化能力を示しており、オンラインテスト中にオフライントレーニングされたトランスフォーマーポリシーが非定常相手に適応するかどうかを疑問視する。
本研究は,ゲーム理論における自己確認平衡(SCE)の動機となるオンライン非定常性に対処するため,オフライン変圧器訓練における自己確認損失(SCL)を提案する。
ジストは、トランスフォーマーが、その動作に基づいて相手の将来の動きを予測することを学ぶことである。
nash平衡(ne)の弱い変種として、sce(scl)は局所的一貫性のみを必要とする: エージェントの局所的観測はその予想から逸脱せず、neが大域的最適性に焦点を絞ったものよりも適応可能な方針をもたらす。
我々は、ランダムなものからベンチマークMARLポリシーまで、様々なポリシーを用いて非定常的相手と対戦することで、自己確認変換器(SCT)のオンライン適応性を評価する。
実験の結果、SCTは非定常相手にオンラインで適応でき、バニラ変圧器やオフラインMARLベースラインよりも高いリターンが得られることが示された。
関連論文リスト
- Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Online Decision Transformer [30.54774566089644]
オフライン強化学習(RL)はシーケンスモデリング問題として定式化することができる。
Online Decision Transformers (ODT) は、オフライン事前トレーニングとオンライン微調整をブレンドしたシーケンスモデリングに基づくRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-11T13:43:24Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。