論文の概要: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- arxiv url: http://arxiv.org/abs/2510.11877v1
- Date: Mon, 13 Oct 2025 19:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.075234
- Title: Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling
- Title(参考訳): シーケンスモデリングによる確率ゲームにおけるロバストな対数強化学習
- Authors: Xiaohang Tang, Zhuowen Cheng, Satyabrat Kumar,
- Abstract要約: 対戦ゲームにおけるDTの堅牢性を高めるために設計された最初のフレームワークについて,我々は,CART(Reserve Adversarially Robust Decision Transformer)を紹介した。
CARTは、より正確なミニマックス値推定を実現し、様々な対戦ゲームにおいて、優れた最悪のケースリターンを継続的に達成する。
- 参考スコア(独自算出の注目度): 4.70145462798498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- Abstract(参考訳): シーケンスモデリングのための高度に表現力のあるアーキテクチャであるTransformerは、最近ではシーケンシャルな意思決定を、特に所望のリターンを条件付けしてポリシーを学ぶDecision Transformer (DT)を通じて解決するように適応されている。
しかし, 系列モデルに基づく強化学習手法の相反する堅牢性は, 明らかにされていない。
本稿では,CART(Reserve Adversarially Robust Decision Transformer)を紹介し,対戦型確率ゲームにおけるDTの堅牢性を高めるために設計された最初のフレームワークについて紹介する。
我々は各ステージにおける主人公と敵の相互作用をステージゲームとして定式化し、そこではペイオフがその後の状態よりも期待される最大値として定義され、確率的状態遷移を明示的に取り入れる。
これらのステージゲームから派生したNashQ値にトランスフォーマーポリシーを条件付けすることで、CARTは、利用し難い(逆向きに堅牢)かつ保守的な不確実性を生み出す。
経験的に、CARTはより正確なミニマックス値推定を達成し、様々な対向確率ゲームにおいて、常に優れた最悪のケースリターンを達成する。
関連論文リスト
- Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns [26.44033413426475]
ソフトアクターのためのシーケンス条件付き批評家を紹介する--Critic (SAC)
我々の手法は,重要サンプリング(IS)を伴わずに,短い軌道セグメントを条件付け,複数ステップの戻り値を統合することによって,批判そのものを強化する。
その単純さにもかかわらず、私たちのアプローチは標準のSACと強力な非政治ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-03-05T16:47:36Z) - Adversarially Robust Decision Transformer [17.49328076347261]
本稿では,最悪のケース対応RvSアルゴリズムであるAdversarially Robust Decision Transformer(ARDT)を提案する。
ARDTは、in-sample minimax return-to-goのポリシーを学び、条件を立てる。
大規模シーケンシャルゲームや連続的対向RL環境では、ARDTは強力なテストタイムの対戦相手に対して非常に優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-25T22:12:47Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。