論文の概要: Switch Trajectory Transformer with Distributional Value Approximation
for Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.07413v1
- Date: Mon, 14 Mar 2022 18:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 13:01:48.938755
- Title: Switch Trajectory Transformer with Distributional Value Approximation
for Multi-Task Reinforcement Learning
- Title(参考訳): 分散値近似を用いたマルチタスク強化学習用スイッチ軌道変換器
- Authors: Qinjie Lin, Han Liu, Biswa Sengupta
- Abstract要約: 本稿では,Trajectory Transformerのマルチタスク拡張であるSwitchTTを提案する。
SwitchTTはマルチタスクポリシー学習にスイッチトランスフォーマーモデルアーキテクチャを利用する。
10タスク学習におけるトラジェクティブトランスフォーマーよりも10%向上し,オフラインモデルのトレーニング速度が最大90%向上することを示す。
- 参考スコア(独自算出の注目度): 9.862909791015237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose SwitchTT, a multi-task extension to Trajectory Transformer but
enhanced with two striking features: (i) exploiting a sparsely activated model
to reduce computation cost in multi-task offline model learning and (ii)
adopting a distributional trajectory value estimator that improves policy
performance, especially in sparse reward settings. These two enhancements make
SwitchTT suitable for solving multi-task offline reinforcement learning
problems, where model capacity is critical for absorbing the vast quantities of
knowledge available in the multi-task dataset. More specifically, SwitchTT
exploits switch transformer model architecture for multi-task policy learning,
allowing us to improve model capacity without proportional computation cost.
Also, SwitchTT approximates the distribution rather than the expectation of
trajectory value, mitigating the effects of the Monte-Carlo Value estimator
suffering from poor sample complexity, especially in the sparse-reward setting.
We evaluate our method using the suite of ten sparse-reward tasks from the
gym-mini-grid environment.We show an improvement of 10% over Trajectory
Transformer across 10-task learning and obtain up to 90% increase in offline
model training speed. Our results also demonstrate the advantage of the switch
transformer model for absorbing expert knowledge and the importance of value
distribution in evaluating the trajectory.
- Abstract(参考訳): トラジェクトリ変換器のマルチタスク拡張であるSwitchTTを提案するが,2つの特徴がある。
(i)マルチタスクオフラインモデル学習における計算コスト削減のための疎活性化モデルの利用
(2)分散軌跡値推定器を採用することにより,政策性能,特にスパース報酬設定が向上する。
これら2つの強化により、switchttはマルチタスクのオフライン強化学習問題を解決するのに適しており、マルチタスクデータセットで利用可能な膨大な知識を吸収するにはモデル能力が不可欠である。
より具体的には、SwitchTTはマルチタスクポリシー学習にスイッチトランスフォーマーモデルアーキテクチャを活用し、比例計算コストなしでモデル容量を改善することができる。
また、SwitchTTは軌道値の期待よりも分布を近似し、特にスパース・リワード条件において、サンプルの複雑さの悪いモンテカルロ値推定器の効果を緩和する。
本手法は,ジムミニグリッド環境における10個のスパースワードタスクのスイートを用いて評価し,10個のタスク学習における軌道トランスフォーマの10%の改善と,最大90%のオフラインモデルトレーニング速度の向上を示す。
また, 専門家の知識を吸収するスイッチ変圧器モデルの利点と, 軌道評価における価値分布の重要性を実証した。
関連論文リスト
- MultiBalance: Multi-Objective Gradient Balancing in Industrial-Scale Multi-Task Recommendation System [28.23029744894405]
産業規模のマルチタスクレコメンデーションシステムにおいて,MultiBalanceと呼ばれる勾配バランス手法を提案する。
タスク毎の勾配のバランスを保ち、負の移動を軽減し、グリッド検索や手動探索の膨大なコストを節約します。
我々はMetaの大規模広告の実験を行い、マルチタスクレコメンデーションシステムを提供し、MultiBalanceが大きな利益を得るのを観察する。
論文 参考訳(メタデータ) (2024-11-03T21:20:21Z) - Remembering Transformer for Continual Learning [9.879896956915598]
本稿では,脳の補足学習システムにインスパイアされたリマインドトランスフォーマーを提案する。
覚えておくTransformerは、アダプタの混合アーキテクチャと、生成モデルに基づく新規性検出機構を採用している。
本研究は, 新奇性検出機構のアブレーション研究や, 適応剤のモデルキャパシティなど, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:22:14Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Multi Self-supervised Pre-fine-tuned Transformer Fusion for Better
Intelligent Transportation Detection [0.32634122554914]
インテリジェントトランスポートシステムは、高度な情報技術を組み合わせて、監視、検出、そして現代の交通に対する早期警告のようなインテリジェントなサービスを提供する。
知的輸送における既存の検出方法は2つの側面に制限されている。
まず、大規模データセット上で事前訓練されたモデル知識と、ターゲットタスクに必要な知識との間には違いがある。
第二に、ほとんどの検出モデルは、学習能力を制限する単一ソース学習のパターンに従う。
論文 参考訳(メタデータ) (2023-10-17T14:32:49Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Efficient Reinforcement Learning in Resource Allocation Problems Through
Permutation Invariant Multi-task Learning [6.247939901619901]
特定の環境では、利用可能なデータはマルチタスク学習の形式で劇的に向上できることを示す。
我々は,この条件下でのサンプル効率の利得に結びついた理論的性能を提供する。
これは、適切なニューラルネットワークアーキテクチャの設計と優先順位付けされたタスクサンプリング戦略を含む、マルチタスク学習への新しいアプローチを動機付ける。
論文 参考訳(メタデータ) (2021-02-18T14:13:02Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。