論文の概要: Decoupling Return-to-Go for Efficient Decision Transformer
- arxiv url: http://arxiv.org/abs/2601.15953v1
- Date: Thu, 22 Jan 2026 13:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.612366
- Title: Decoupling Return-to-Go for Efficient Decision Transformer
- Title(参考訳): 効率の良い決定変圧器のリターン・トゥ・ゴーのデカップリング
- Authors: Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li, Qirui Zheng, Xionghui Yang, Wenxin Li,
- Abstract要約: Decision Transformer (DT) はオフライン強化学習のための強力なシーケンスモデリング手法を確立した。
Decoupled DT (DDT) は、Transformerを通して観測シーケンスとアクションシーケンスのみを処理することで、アーキテクチャを単純化する。
実験の結果,DDTはDTを著しく上回り,最先端のDTと競合する性能を確立していることがわかった。
- 参考スコア(独自算出の注目度): 6.429850804144503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Decision Transformer (DT) has established a powerful sequence modeling approach to offline reinforcement learning. It conditions its action predictions on Return-to-Go (RTG), using it both to distinguish trajectory quality during training and to guide action generation at inference. In this work, we identify a critical redundancy in this design: feeding the entire sequence of RTGs into the Transformer is theoretically unnecessary, as only the most recent RTG affects action prediction. We show that this redundancy can impair DT's performance through experiments. To resolve this, we propose the Decoupled DT (DDT). DDT simplifies the architecture by processing only observation and action sequences through the Transformer, using the latest RTG to guide the action prediction. This streamlined approach not only improves performance but also reduces computational cost. Our experiments show that DDT significantly outperforms DT and establishes competitive performance against state-of-the-art DT variants across multiple offline RL tasks.
- Abstract(参考訳): The Decision Transformer (DT) has established a powerful sequence modeling approach to offline reinforcement learning。
RTG(Return-to-Go)では、トレーニング中の軌道品質を識別し、推論時の行動生成を誘導する。
直近のRTGだけが行動予測に影響を及ぼすため、RTGのシーケンス全体をトランスフォーマーに供給することは理論的には不要である。
この冗長性は実験によってDTの性能を損なう可能性があることを示す。
そこで我々はDecoupled DT (DDT)を提案する。
DDTは、Transformerを通じて観測シーケンスとアクションシーケンスのみを処理し、最新のRTGを使用してアクション予測をガイドすることで、アーキテクチャを単純化する。
この合理化されたアプローチは性能を向上するだけでなく、計算コストも削減する。
実験の結果、DDTはDTを著しく上回り、複数のオフラインRLタスクにおける最先端のDT変異に対する競合性能を確立していることがわかった。
関連論文リスト
- Adjusting the Output of Decision Transformer with Action Gradient [5.448998267117127]
アクショングラディエント(Action Gradient、AG)は、PGに類似した機能を満たすためにアクションを直接調整する革新的な方法論である。
AGは、アクションに対するQ値の勾配を利用して、アクションを最適化する。
提案手法はDTに基づくアルゴリズムの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-10-06T18:54:42Z) - Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-02-28T16:40:38Z) - Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。