論文の概要: You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments
- arxiv url: http://arxiv.org/abs/2205.15967v1
- Date: Tue, 31 May 2022 17:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:51:26.529527
- Title: You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments
- Title(参考訳): 運が良くない: 確率的環境において、意思決定のトランスフォーマーが失敗する理由
- Authors: Keiran Paster and Sheila McIlraith and Jimmy Ba
- Abstract要約: 予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
- 参考スコア(独自算出の注目度): 31.117949189062895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, methods such as Decision Transformer that reduce reinforcement
learning to a prediction task and solve it via supervised learning (RvS) have
become popular due to their simplicity, robustness to hyperparameters, and
strong overall performance on offline RL tasks. However, simply conditioning a
probabilistic model on a desired return and taking the predicted action can
fail dramatically in stochastic environments since trajectories that result in
a return may have only achieved that return due to luck. In this work, we
describe the limitations of RvS approaches in stochastic environments and
propose a solution. Rather than simply conditioning on the return of a single
trajectory as is standard practice, our proposed method, ESPER, learns to
cluster trajectories and conditions on average cluster returns, which are
independent from environment stochasticity. Doing so allows ESPER to achieve
strong alignment between target return and expected performance in real
environments. We demonstrate this in several challenging stochastic offline-RL
tasks including the challenging puzzle game 2048, and Connect Four playing
against a stochastic opponent. In all tested domains, ESPER achieves
significantly better alignment between the target return and achieved return
than simply conditioning on returns. ESPER also achieves higher maximum
performance than even the value-based baselines.
- Abstract(参考訳): 近年、予測タスクへの強化学習を削減し、教師付き学習(supervised learning:rvs)によって解決する決定トランスフォーマーなどの手法が、その単純さ、ハイパーパラメータへの堅牢性、オフラインrlタスクにおける全体的なパフォーマンスの強化などにより人気を集めている。
しかし、単に所望の回帰を確率モデルに条件付けし、予測された作用を取ることは、確率的環境では劇的に失敗する可能性がある。
本稿では,確率環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく,提案手法であるESPERは,環境確率から独立した平均クラスタリターンにおけるクラスタトラジェクトリと条件を学習する。
そうすることでESPERは、実際の環境での目標リターンと期待されるパフォーマンスの強いアライメントを達成することができる。
難解なパズルゲーム2048や、確率的相手と対戦するConnect Fourなど、難解なオフラインRLタスクでこれを実証する。
テスト対象のすべてのドメインにおいて、ESPERはリターンを単に条件付けするよりも、ターゲットのリターンとリターンの間のアライメントが大幅に向上する。
ESPERは値ベースのベースラインよりも高い最大パフォーマンスを実現している。
関連論文リスト
- Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Adversarially Robust Decision Transformer [17.49328076347261]
本稿では,最悪のケース対応RvSアルゴリズムであるAdversarially Robust Decision Transformer(ARDT)を提案する。
ARDTは、in-sample minimax return-to-goのポリシーを学び、条件を立てる。
大規模シーケンシャルゲームや連続的対向RL環境では、ARDTは強力なテストタイムの対戦相手に対して非常に優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-25T22:12:47Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Non-ergodicity in reinforcement learning: robustness via ergodicity transformations [8.44491527275706]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。