論文の概要: Adversarial Robust Decision Transformer: Enhancing Robustness of RvS via Minimax Returns-to-go
- arxiv url: http://arxiv.org/abs/2407.18414v1
- Date: Thu, 25 Jul 2024 22:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:49:32.093019
- Title: Adversarial Robust Decision Transformer: Enhancing Robustness of RvS via Minimax Returns-to-go
- Title(参考訳): 逆ロバスト決定変換器:ミニマックスリターン・ツー・ゴーによるRvSのロバスト性向上
- Authors: Xiaohang Tang, Afonso Marques, Parameswaran Kamalaruban, Ilija Bogunovic,
- Abstract要約: 我々は、最悪のケース対応RvSアルゴリズム、Adversarial Robust Decision Transformer (ARDT)を提案する。
ARDTは、in-sample minimax return-to-goのポリシーを学び、条件を立てる。
大規模シーケンシャルゲームや連続的対向RL環境では、ARDTは強力なテストタイムの対戦相手に対して非常に優れたロバスト性を示す。
- 参考スコア(独自算出の注目度): 17.49328076347261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Transformer (DT), as one of the representative Reinforcement Learning via Supervised Learning (RvS) methods, has achieved strong performance in offline learning tasks by leveraging the powerful Transformer architecture for sequential decision-making. However, in adversarial environments, these methods can be non-robust, since the return is dependent on the strategies of both the decision-maker and adversary. Training a probabilistic model conditioned on observed return to predict action can fail to generalize, as the trajectories that achieve a return in the dataset might have done so due to a weak and suboptimal behavior adversary. To address this, we propose a worst-case-aware RvS algorithm, the Adversarial Robust Decision Transformer (ARDT), which learns and conditions the policy on in-sample minimax returns-to-go. ARDT aligns the target return with the worst-case return learned through minimax expectile regression, thereby enhancing robustness against powerful test-time adversaries. In experiments conducted on sequential games with full data coverage, ARDT can generate a maximin (Nash Equilibrium) strategy, the solution with the largest adversarial robustness. In large-scale sequential games and continuous adversarial RL environments with partial data coverage, ARDT demonstrates significantly superior robustness to powerful test-time adversaries and attains higher worst-case returns compared to contemporary DT methods.
- Abstract(参考訳): Reinforcement Learning via Supervised Learning (RvS) 手法の代表的な1つであるDecision Transformer (DT) は、強力なTransformerアーキテクチャを活用して、オフライン学習タスクにおいて強力なパフォーマンスを実現している。
しかしながら、敵の環境では、リターンは意思決定者と敵双方の戦略に依存しているため、これらの手法は損なわれない。
観測されたリターンに条件付き確率モデルのトレーニングは、データセットのリターンを達成する軌道が弱く、最適でない振舞いに逆らうため、一般化に失敗する可能性がある。
そこで我々は,最低ケース対応のRvSアルゴリズムであるAdversarial Robust Decision Transformer (ARDT)を提案する。
ARDTは、最小限の期待回帰によって学習した最悪のケースリターンとターゲットリターンを一致させ、強力なテストタイム敵に対する堅牢性を高める。
完全なデータカバレッジを持つシーケンシャルゲームで実施された実験では、ARDTは最大の対向ロバスト性を持つ解である最大(ナッシュ平衡)戦略を生成することができる。
大規模なシーケンシャルゲームや、部分的なデータカバレッジを持つ連続的敵RL環境では、ARDTは強力なテストタイムの敵に対して非常に優れたロバスト性を示し、現代のDT法と比較して最悪のケースリターンを達成している。
関連論文リスト
- Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Non-ergodicity in reinforcement learning: robustness via ergodicity transformations [8.44491527275706]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - A Bayesian Robust Regression Method for Corrupted Data Reconstruction [5.298637115178182]
我々は適応的敵攻撃に抵抗できる効果的なロバスト回帰法を開発した。
まず TRIP (hard Thresholding approach to Robust regression with sImple Prior) アルゴリズムを提案する。
次に、より堅牢なBRHT (robust Bayesian Reweighting regression via Hard Thresholding) アルゴリズムを構築するためにベイズ再重み付け(Bayesian reweighting)というアイデアを用いる。
論文 参考訳(メタデータ) (2022-12-24T17:25:53Z) - You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments [31.117949189062895]
予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
論文 参考訳(メタデータ) (2022-05-31T17:15:44Z) - Probabilistically Robust Learning: Balancing Average- and Worst-case
Performance [105.87195436925722]
我々は、正確で不安定な平均ケースと頑健で保守的な最悪のケースのギャップを埋める、堅牢性確率というフレームワークを提案する。
理論的には、このフレームワークはパフォーマンスと最悪のケースと平均ケース学習のサンプル複雑さの間のトレードオフを克服する。
論文 参考訳(メタデータ) (2022-02-02T17:01:38Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。