論文の概要: A New Perspective on Transformers in Online Reinforcement Learning for Continuous Control
- arxiv url: http://arxiv.org/abs/2510.13367v1
- Date: Wed, 15 Oct 2025 09:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.612633
- Title: A New Perspective on Transformers in Online Reinforcement Learning for Continuous Control
- Title(参考訳): オンライン強化学習における変圧器の新しい視点
- Authors: Nikita Kachaev, Daniil Zelezetsky, Egor Cherepanov, Alexey K. Kovelev, Aleksandr I. Panov,
- Abstract要約: オンラインモデルフリーRLにおける連続制御において,トランスフォーマーが強力なベースラインとなることを示す。
本実験では,完全かつ部分的に観測可能なタスク間での競争性能を実現するため,安定したアーキテクチャとトレーニング戦略を明らかにした。
- 参考スコア(独自算出の注目度): 39.63595284191852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their effectiveness and popularity in offline or model-based reinforcement learning (RL), transformers remain underexplored in online model-free RL due to their sensitivity to training setups and model design decisions such as how to structure the policy and value networks, share components, or handle temporal information. In this paper, we show that transformers can be strong baselines for continuous control in online model-free RL. We investigate key design questions: how to condition inputs, share components between actor and critic, and slice sequential data for training. Our experiments reveal stable architectural and training strategies enabling competitive performance across fully and partially observable tasks, and in both vector- and image-based settings. These findings offer practical guidance for applying transformers in online RL.
- Abstract(参考訳): オフラインまたはモデルベース強化学習(RL)の有効性と人気にもかかわらず、トランスフォーマーは、トレーニング設定への敏感さや、ポリシーやバリューネットワークの構成方法やコンポーネントの共有方法、時間情報の処理方法といった設計上の決定のために、オンラインモデルなしRLで過小評価されている。
本稿では,オンラインモデルフリーRLにおける連続制御において,トランスフォーマーが強力なベースラインとなることを示す。
入力の条件付け、アクターと批評家間のコンポーネントの共有、トレーニング用シーケンシャルデータのスライスなど、設計上の重要な課題について検討する。
本実験では,完全かつ部分的に観測可能なタスクと,ベクトルと画像の両方の設定において,競争性能を実現するための安定なアーキテクチャとトレーニング戦略を明らかにした。
これらの知見は、オンラインRLにトランスフォーマーを適用するための実践的なガイダンスを提供する。
関連論文リスト
- Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。