論文の概要: Return-Aligned Decision Transformer
- arxiv url: http://arxiv.org/abs/2402.03923v2
- Date: Tue, 23 Apr 2024 06:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:16:06.699241
- Title: Return-Aligned Decision Transformer
- Title(参考訳): 帰還アライメント決定変換器
- Authors: Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra,
- Abstract要約: 本稿では、実際のリターンを目標リターンに合わせるために、Return-Aligned Decision Transformer (RADT)を提案する。
我々のモデルは、戻り値と状態の関係を高めるために、従来の入力シーケンスから返される。
- 参考スコア(独自算出の注目度): 13.973995766656332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actual return with a specified target return, giving control over the agent's performance. Decision Transformer (DT) optimizes a policy that generates actions conditioned on the target return through supervised learning and is equipped with a mechanism to control the agent using the target return. Despite being designed to align the actual return with the target return, we have empirically identified a discrepancy between the actual return and the target return in DT. In this paper, we propose Return-Aligned Decision Transformer (RADT), designed to effectively align the actual return with the target return. Our model decouples returns from the conventional input sequence, which typically consists of returns, states, and actions, to enhance the relationships between returns and states, as well as returns and actions. Extensive experiments show that RADT reduces the discrepancies between the actual return and the target return of DT-based methods.
- Abstract(参考訳): オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。
しかし、アプリケーションが広まるにつれて、リターンを最大化するだけでなく、実際のリターンを特定のターゲットリターンと整合させるエージェントを訓練することがますます重要になり、エージェントのパフォーマンスを制御できるようになる。
決定変換器(DT)は、教師付き学習を通じて目標リターンに条件付けられたアクションを生成するポリシーを最適化し、目標リターンを使用してエージェントを制御する機構を備える。
ターゲットリターンと実際のリターンを一致させるように設計されているにもかかわらず、DTにおける実際のリターンとターゲットリターンの相違を実証的に確認した。
本稿では、実際のリターンと目標リターンを効果的に整合させるために、Return-Aligned Decision Transformer (RADT)を提案する。
我々のモデルは、リターンと状態の関係を高めるために、通常、リターンと状態とアクションで構成される従来の入力シーケンスからリターンする。
大規模実験により、RADTはDTベースの手法の実際の戻り値と目標戻り値との差を減少させることが示された。
関連論文リスト
- Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文 参考訳(メタデータ) (2024-10-30T20:46:26Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Adversarially Robust Decision Transformer [17.49328076347261]
本稿では,最悪のケース対応RvSアルゴリズムであるAdversarially Robust Decision Transformer(ARDT)を提案する。
ARDTは、in-sample minimax return-to-goのポリシーを学び、条件を立てる。
大規模シーケンシャルゲームや連続的対向RL環境では、ARDTは強力なテストタイムの対戦相手に対して非常に優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-25T22:12:47Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Non-ergodicity in reinforcement learning: robustness via ergodicity transformations [8.44491527275706]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。