Fugu-MT 論文翻訳(概要): Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning

論文の概要: Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.16420v1
Date: Fri, 22 Aug 2025 14:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-25 16:42:36.413074
Title: Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning
Title（参考訳）: 二重チェック・マイ・デシレッド・リターン:オフライン強化学習のためのターゲットアライメント付き変圧器
Authors: Yue Pei, Hongming Zhang, Chao Gao, Martin Müller, Mengxiao Zhu, Hao Sheng, Haogang Zhu, Liang Lin,
Abstract要約: オフラインの強化学習は、ロボット制御、自律運転、医療意思決定といった分野において大きな進歩を遂げている。そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
参考スコア（独自算出の注目度）: 63.79928625391378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL) has achieved significant advances in domains such as robotic control, autonomous driving, and medical decision-making. Most existing methods primarily focus on training policies that maximize cumulative returns from a given dataset. However, many real-world applications require precise control over policy performance levels, rather than simply pursuing the best possible return. Reinforcement learning via supervised learning (RvS) frames offline RL as a sequence modeling task, enabling the extraction of diverse policies by conditioning on different desired returns. Yet, existing RvS-based transformers, such as Decision Transformer (DT), struggle to reliably align the actual achieved returns with specified target returns, especially when interpolating within underrepresented returns or extrapolating beyond the dataset. To address this limitation, we propose Doctor, a novel approach that Double Checks the Transformer with target alignment for Offline RL. Doctor achieves superior target alignment both within and beyond the dataset, while enabling accurate and flexible control over policy performance. Notably, on the dynamic treatment regime benchmark, EpiCare, our approach effectively modulates treatment policy aggressiveness, balancing therapeutic returns against adverse event risk.
Abstract（参考訳）: オフライン強化学習(RL)は、ロボット制御、自律運転、医療意思決定といった分野において大きな進歩を遂げている。既存のほとんどのメソッドは、与えられたデータセットからの累積リターンを最大化するトレーニングポリシーに重点を置いている。しかし、多くの現実世界のアプリケーションは、単に最高のリターンを追求するのではなく、ポリシーのパフォーマンスレベルを正確に制御する必要がある。教師付き学習(RvS)による強化学習は、オフラインRLをシーケンスモデリングタスクとしてフレーム化し、異なる所望のリターンを条件付けることで、多様なポリシーの抽出を可能にする。しかし、Decision Transformer (DT)のような既存のRvSベースのトランスフォーマーは、特に未表現のリターン内を補間したり、データセットを超えて外挿する場合、実際の完了したリターンを指定されたターゲットリターンと確実に整合させるのに苦労している。この制限に対処するために、オフラインRLのターゲットアライメントで変換器をダブルチェックする新しいアプローチであるDoctorを提案する。 Doctorはデータセット内外の両方で優れたターゲットアライメントを実現し、ポリシパフォーマンスの正確かつ柔軟なコントロールを可能にします。特に, 動的治療体制ベンチマークであるEpiCareでは, 治療方針の攻撃性を効果的に調整し, 有害事象リスクに対する治療効果のバランスをとる。

論文の概要: Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning

関連論文リスト