論文の概要: Emergent Agentic Transformer from Chain of Hindsight Experience
- arxiv url: http://arxiv.org/abs/2305.16554v1
- Date: Fri, 26 May 2023 00:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:38:02.130720
- Title: Emergent Agentic Transformer from Chain of Hindsight Experience
- Title(参考訳): 後視経験の連鎖からの創発性エージェントトランスフォーマー
- Authors: Hao Liu and Pieter Abbeel
- Abstract要約: 簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
- 参考スコア(独自算出の注目度): 96.56164427726203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models powered by diverse data and model scale have
dominated natural language modeling and computer vision and pushed the frontier
of multiple AI areas. In reinforcement learning (RL), despite many efforts into
transformer-based policies, a key limitation, however, is that current
transformer-based policies cannot learn by directly combining information from
multiple sub-optimal trials. In this work, we address this issue using recently
proposed chain of hindsight to relabel experience, where we train a transformer
on a sequence of trajectory experience ascending sorted according to their
total rewards. Our method consists of relabelling target return of each
trajectory to the maximum total reward among in sequence of trajectories and
training an autoregressive model to predict actions conditioning on past
states, actions, rewards, target returns, and task completion tokens, the
resulting model, Agentic Transformer (AT), can learn to improve upon itself
both at training and test time. As we show on D4RL and ExoRL benchmarks, to the
best our knowledge, this is the first time that a simple transformer-based
model performs competitively with both temporal-difference and
imitation-learning-based approaches, even from sub-optimal data. Our Agentic
Transformer also shows a promising scaling trend that bigger models
consistently improve results.
- Abstract(参考訳): 多様なデータとモデルスケールを備えた大規模なトランスフォーマーモデルは、自然言語モデリングとコンピュータビジョンを支配し、複数のai分野のフロンティアを押し進めてきた。
しかし、強化学習(RL)では、トランスフォーマーベースのポリシーへの多くの取り組みにもかかわらず、現在のトランスフォーマーベースのポリシーは複数の準最適トライアルからの情報を直接組み合わせて学習できない。
本研究では,最近提案されているrelabel経験に対する後遺症連鎖を用いてこの問題に対処し,その総報酬に応じて,軌道経験の列で変圧器を訓練する。
本手法は,トラジェクタのシーケンス内において,各軌道の目標リターンを最大総報酬にリラベリングし,過去の状態,動作,報酬,目標リターン,タスク完了トークンに条件づけされた動作を予測する自己回帰モデルを訓練することにより,訓練時およびテスト時の両方で改善を学習できる。
私たちがD4RLとExoRLベンチマークで示したように、我々の知る限りでは、単純なトランスフォーマーベースのモデルが、時間差と模倣学習に基づくアプローチの両方と競合するのはこれが初めてである。
Agentic Transformerはまた、大きなモデルが継続的に結果を改善する、有望なスケーリングトレンドを示しています。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - TransDreamer: Reinforcement Learning with Transformer World Models [30.387428559614186]
我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。
まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。
実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-19T00:30:52Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。