論文の概要: Return-Aligned Decision Transformer
- arxiv url: http://arxiv.org/abs/2402.03923v2
- Date: Tue, 23 Apr 2024 06:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:16:06.699241
- Title: Return-Aligned Decision Transformer
- Title(参考訳): 帰還アライメント決定変換器
- Authors: Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra,
- Abstract要約: 本稿では、実際のリターンを目標リターンに合わせるために、Return-Aligned Decision Transformer (RADT)を提案する。
我々のモデルは、戻り値と状態の関係を高めるために、従来の入力シーケンスから返される。
- 参考スコア(独自算出の注目度): 13.973995766656332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actual return with a specified target return, giving control over the agent's performance. Decision Transformer (DT) optimizes a policy that generates actions conditioned on the target return through supervised learning and is equipped with a mechanism to control the agent using the target return. Despite being designed to align the actual return with the target return, we have empirically identified a discrepancy between the actual return and the target return in DT. In this paper, we propose Return-Aligned Decision Transformer (RADT), designed to effectively align the actual return with the target return. Our model decouples returns from the conventional input sequence, which typically consists of returns, states, and actions, to enhance the relationships between returns and states, as well as returns and actions. Extensive experiments show that RADT reduces the discrepancies between the actual return and the target return of DT-based methods.
- Abstract(参考訳): オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。
しかし、アプリケーションが広まるにつれて、リターンを最大化するだけでなく、実際のリターンを特定のターゲットリターンと整合させるエージェントを訓練することがますます重要になり、エージェントのパフォーマンスを制御できるようになる。
決定変換器(DT)は、教師付き学習を通じて目標リターンに条件付けられたアクションを生成するポリシーを最適化し、目標リターンを使用してエージェントを制御する機構を備える。
ターゲットリターンと実際のリターンを一致させるように設計されているにもかかわらず、DTにおける実際のリターンとターゲットリターンの相違を実証的に確認した。
本稿では、実際のリターンと目標リターンを効果的に整合させるために、Return-Aligned Decision Transformer (RADT)を提案する。
我々のモデルは、リターンと状態の関係を高めるために、通常、リターンと状態とアクションで構成される従来の入力シーケンスからリターンする。
大規模実験により、RADTはDTベースの手法の実際の戻り値と目標戻り値との差を減少させることが示された。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Non-ergodicity in reinforcement learning: robustness via ergodicity
transformations [1.4890859968756438]
強化学習(RL)の応用分野は、自律運転、精密農業、金融などである。
この堅牢性の欠如に寄与する根本的な問題は、リターンの期待値に焦点をあてることにある、と私たちは主張する。
本研究では,データからエルゴディディティを学習するアルゴリズムを提案し,その効果を非エルゴディティ環境において実証する。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - You Can't Count on Luck: Why Decision Transformers Fail in Stochastic
Environments [31.117949189062895]
予測タスクへの強化学習を減らし、教師付き学習(RvS)によって解決する決定変換器は、その単純さ、ハイパースに対する堅牢性、オフラインタスクにおける全体的なパフォーマンスの強化などにより人気を博している。
しかし、単にモデルに所望のリターンを条件付け、予測されたアクションを取るだけで、運の悪さによるリターンをもたらす環境において、劇的に失敗する可能性がある。
本稿では,環境におけるRvSアプローチの限界について述べ,その解決策を提案する。
従来の手法のように単一軌道の戻りを単に条件づけるのではなく、提案手法であるESPERはクラスタ・トラジェクトリと条件を学ぶ。
論文 参考訳(メタデータ) (2022-05-31T17:15:44Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。