論文の概要: Self-Confirming Transformer for Belief-Conditioned Adaptation in Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.04579v2
- Date: Mon, 24 Feb 2025 06:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:39:55.609095
- Title: Self-Confirming Transformer for Belief-Conditioned Adaptation in Offline Multi-Agent Reinforcement Learning
- Title(参考訳): オフラインマルチエージェント強化学習における信頼度適応のための自己確認変換器
- Authors: Tao Li, Juan Guevara, Xinhong Xie, Quanyan Zhu,
- Abstract要約: オフライン強化学習(RL)は、オフラインデータセットとオンライン環境の間の分散シフトに悩まされる。
本稿では,自己拡張プレコンディショニングの考え方に基づいて,トランスフォーマーエージェントにオンライン適応性を持たせるための新しい自己回帰トレーニングを提案する。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License:
- Abstract: Offline reinforcement learning (RL) suffers from the distribution shift between the offline dataset and the online environment. In multi-agent RL (MARL), this distribution shift may arise from the nonstationary opponents in the online testing who display distinct behaviors from those recorded in the offline dataset. Hence, the key to the broader deployment of offline MARL is the online adaptation to nonstationary opponents. Recent advances in foundation models, e.g., large language models, have demonstrated the generalization ability of the transformer, an emerging neural network architecture, in sequence modeling, of which offline RL is a special case. One naturally wonders \textit{whether offline-trained transformer-based RL policies adapt to nonstationary opponents online}. We propose a novel auto-regressive training to equip transformer agents with online adaptability based on the idea of self-augmented pre-conditioning. The transformer agent first learns offline to predict the opponent's action based on past observations. When deployed online, such a fictitious opponent play, referred to as the belief, is fed back to the transformer, together with other environmental feedback, to generate future actions conditional on the belief. Motivated by self-confirming equilibrium in game theory, the training loss consists of belief consistency loss, requiring the beliefs to match the opponent's actual actions and best response loss, mandating the agent to behave optimally under the belief. We evaluate the online adaptability of the proposed self-confirming transformer (SCT) in a structured environment, iterated prisoner's dilemma games, to demonstrate SCT's belief consistency and equilibrium behaviors as well as more involved multi-particle environments to showcase its superior performance against nonstationary opponents over prior transformers and offline MARL baselines.
- Abstract(参考訳): オフライン強化学習(RL)は、オフラインデータセットとオンライン環境の間の分散シフトに悩まされる。
マルチエージェントRL(MARL)では、オンラインテストにおいてオフラインデータセットに記録されたものと異なる振る舞いを示す非定常的相手から、この分散シフトが発生する可能性がある。
したがって、オフラインMARLのより広範な展開の鍵は、静止しない相手へのオンライン適応である。
大規模言語モデルなどの基礎モデルの最近の進歩は、オフラインRLが特別なケースであるシーケンスモデリングにおいて、新しいニューラルネットワークアーキテクチャであるトランスフォーマーの一般化能力を実証している。
オフラインでトレーニングされたトランスフォーマーベースのRLポリシーが、オンラインの非定常的相手に適応するかどうか、自然に疑問を呈する。
本稿では,自己拡張プレコンディショニングの考え方に基づいて,トランスフォーマーエージェントにオンライン適応性を持たせるための新しい自己回帰トレーニングを提案する。
トランスエージェントは、まずオフラインで学習し、過去の観測に基づいて相手の動作を予測する。
オンラインで配信されると、そのような架空の相手の遊びは、信念と呼ばれるもので、他の環境フィードバックとともにトランスフォーマーにフィードバックされ、信念に基づいて将来の行動を生成する。
ゲーム理論における自己確認均衡によって動機づけられたトレーニングの損失は、信念の一貫性の喪失からなり、信念は相手の実際の行動と一致し、最高の反応の損失を要求され、エージェントは信念の下で最適に振る舞うように強制される。
提案した自己確認型変圧器(SCT)の構造化環境におけるオンライン適応性の評価を行い,SCTの信念の整合性と平衡挙動を実証するとともに,先行変圧器およびオフラインMARLベースラインに対する非定常相手に対する優れた性能を示す多粒子環境について検討した。
関連論文リスト
- Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Online Decision Transformer [30.54774566089644]
オフライン強化学習(RL)はシーケンスモデリング問題として定式化することができる。
Online Decision Transformers (ODT) は、オフライン事前トレーニングとオンライン微調整をブレンドしたシーケンスモデリングに基づくRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-11T13:43:24Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。