論文の概要: Accelerating Transformers in Online RL
- arxiv url: http://arxiv.org/abs/2509.26137v1
- Date: Tue, 30 Sep 2025 11:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.125879
- Title: Accelerating Transformers in Online RL
- Title(参考訳): オンラインRLにおける変圧器の高速化
- Authors: Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 強化学習における変圧器モデル
本稿では,アクセラレータポリシーをトランスフォーマーのトレーナーとして利用する手法を提案する。
提案アルゴリズムを適用することで,トランスフォーマーの安定したトレーニングが可能になるだけでなく,画像ベースの環境におけるトレーニング時間を最大2倍に短縮できることを示す。
- 参考スコア(独自算出の注目度): 47.99822253865053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The appearance of transformer-based models in Reinforcement Learning (RL) has expanded the horizons of possibilities in robotics tasks, but it has simultaneously brought a wide range of challenges during its implementation, especially in model-free online RL. Some of the existing learning algorithms cannot be easily implemented with transformer-based models due to the instability of the latter. In this paper, we propose a method that uses the Accelerator policy as a transformer's trainer. The Accelerator, a simpler and more stable model, interacts with the environment independently while simultaneously training the transformer through behavior cloning during the first stage of the proposed algorithm. In the second stage, the pretrained transformer starts to interact with the environment in a fully online setting. As a result, this model-free algorithm accelerates the transformer in terms of its performance and helps it to train online in a more stable and faster way. By conducting experiments on both state-based and image-based ManiSkill environments, as well as on MuJoCo tasks in MDP and POMDP settings, we show that applying our algorithm not only enables stable training of transformers but also reduces training time on image-based environments by up to a factor of two. Moreover, it decreases the required replay buffer size in off-policy methods to 10-20 thousand, which significantly lowers the overall computational demands.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)におけるトランスフォーマーベースモデルの出現は、ロボティクスタスクにおける可能性の地平を広げてきたが、同時にその実装において、特にモデルフリーオンラインRLにおいて、幅広い課題をもたらした。
既存の学習アルゴリズムのいくつかは、後者の不安定性のため、変換器ベースのモデルで容易に実装できない。
本稿では,アクセラレータポリシーをトランスフォーマーのトレーナーとして利用する手法を提案する。
よりシンプルでより安定なモデルであるAcceleratorは環境と独立に相互作用し、提案アルゴリズムの第1段階の動作クローニングを通じてトランスフォーマーをトレーニングする。
第2段階では、事前訓練されたトランスフォーマーが完全にオンライン環境で環境と対話し始める。
その結果、モデルなしのアルゴリズムはトランスフォーマーのパフォーマンスを加速し、より安定して高速なオンライントレーニングを支援する。
MDP と POMDP 設定における MuJoCo タスクだけでなく,状態ベースの ManiSkill 環境と画像ベースの ManiSkill 環境の両方で実験を行うことにより,本アルゴリズムの適用により,トランスフォーマの安定したトレーニングが可能になるだけでなく,画像ベースの環境におけるトレーニング時間を最大2倍に短縮できることを示す。
さらに、オフポリシー法で必要となるリプレイバッファサイズを10~20000に削減し、全体的な計算要求を大幅に削減する。
関連論文リスト
- CSDformer: A Conversion Method for Fully Spike-Driven Transformer [11.852241487470797]
スパイクベースのトランスは、スパイクニューラルネットワークの性能向上を目的とした、新しいアーキテクチャである。
完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
CSDformerは超低レイテンシで高いパフォーマンスを実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
論文 参考訳(メタデータ) (2025-09-22T07:55:03Z) - Quantization-Free Autoregressive Action Transformer [18.499864366974613]
現在のトランスフォーマーに基づく模倣学習アプローチは、離散的なアクション表現を導入し、結果として生じる潜在コードに対して自己回帰型トランスフォーマーデコーダを訓練する。
本稿では,自動回帰変換器の直接的かつ連続的なポリシパラメトリゼーションとして生成無限語彙変換器(GIVT)を利用する量子化フリー手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T13:50:35Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。