論文の概要: Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.16420v1
- Date: Fri, 22 Aug 2025 14:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.413074
- Title: Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning
- Title(参考訳): 二重チェック・マイ・デシレッド・リターン:オフライン強化学習のためのターゲットアライメント付き変圧器
- Authors: Yue Pei, Hongming Zhang, Chao Gao, Martin Müller, Mengxiao Zhu, Hao Sheng, Haogang Zhu, Liang Lin,
- Abstract要約: オフラインの強化学習は、ロボット制御、自律運転、医療意思決定といった分野において大きな進歩を遂げている。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
- 参考スコア(独自算出の注目度): 63.79928625391378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) has achieved significant advances in domains such as robotic control, autonomous driving, and medical decision-making. Most existing methods primarily focus on training policies that maximize cumulative returns from a given dataset. However, many real-world applications require precise control over policy performance levels, rather than simply pursuing the best possible return. Reinforcement learning via supervised learning (RvS) frames offline RL as a sequence modeling task, enabling the extraction of diverse policies by conditioning on different desired returns. Yet, existing RvS-based transformers, such as Decision Transformer (DT), struggle to reliably align the actual achieved returns with specified target returns, especially when interpolating within underrepresented returns or extrapolating beyond the dataset. To address this limitation, we propose Doctor, a novel approach that Double Checks the Transformer with target alignment for Offline RL. Doctor achieves superior target alignment both within and beyond the dataset, while enabling accurate and flexible control over policy performance. Notably, on the dynamic treatment regime benchmark, EpiCare, our approach effectively modulates treatment policy aggressiveness, balancing therapeutic returns against adverse event risk.
- Abstract(参考訳): オフライン強化学習(RL)は、ロボット制御、自律運転、医療意思決定といった分野において大きな進歩を遂げている。
既存のほとんどのメソッドは、与えられたデータセットからの累積リターンを最大化するトレーニングポリシーに重点を置いている。
しかし、多くの現実世界のアプリケーションは、単に最高のリターンを追求するのではなく、ポリシーのパフォーマンスレベルを正確に制御する必要がある。
教師付き学習(RvS)による強化学習は、オフラインRLをシーケンスモデリングタスクとしてフレーム化し、異なる所望のリターンを条件付けることで、多様なポリシーの抽出を可能にする。
しかし、Decision Transformer (DT)のような既存のRvSベースのトランスフォーマーは、特に未表現のリターン内を補間したり、データセットを超えて外挿する場合、実際の完了したリターンを指定されたターゲットリターンと確実に整合させるのに苦労している。
この制限に対処するために、オフラインRLのターゲットアライメントで変換器をダブルチェックする新しいアプローチであるDoctorを提案する。
Doctorはデータセット内外の両方で優れたターゲットアライメントを実現し、ポリシパフォーマンスの正確かつ柔軟なコントロールを可能にします。
特に, 動的治療体制ベンチマークであるEpiCareでは, 治療方針の攻撃性を効果的に調整し, 有害事象リスクに対する治療効果のバランスをとる。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文 参考訳(メタデータ) (2024-10-30T20:46:26Z) - Return-Aligned Decision Transformer [13.973995766656332]
オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。
本研究では、実際のリターンと目標リターンをより効果的に整合させるために、リターンアラインメント決定変換器(RADT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T11:46:47Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。