論文の概要: Hierarchical Decision Transformer
- arxiv url: http://arxiv.org/abs/2209.10447v1
- Date: Wed, 21 Sep 2022 15:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:33:06.975248
- Title: Hierarchical Decision Transformer
- Title(参考訳): 階層型決定変換器
- Authors: Andr\'e Correia and Lu\'is A. Alexandre
- Abstract要約: 本稿では,実演からシーケンスモデルを学習するための階層的アルゴリズムを提案する。
高レベルメカニズムは、タスクを通して低レベルコントローラをガイドし、後者に到達するためのサブゴールを選択する。
提案手法をOpenAIGym, D4RL, RoboMimicベンチマークの複数のタスクで検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sequence models in reinforcement learning require task knowledge to estimate
the task policy. This paper presents a hierarchical algorithm for learning a
sequence model from demonstrations. The high-level mechanism guides the
low-level controller through the task by selecting sub-goals for the latter to
reach. This sequence replaces the returns-to-go of previous methods, improving
its performance overall, especially in tasks with longer episodes and scarcer
rewards. We validate our method in multiple tasks of OpenAIGym, D4RL and
RoboMimic benchmarks. Our method outperforms the baselines in eight out of ten
tasks of varied horizons and reward frequencies without prior task knowledge,
showing the advantages of the hierarchical model approach for learning from
demonstrations using a sequence model.
- Abstract(参考訳): 強化学習におけるシーケンスモデルは、タスクポリシーを見積もるためにタスク知識を必要とする。
本稿では,実演からシーケンスモデルを学習するための階層的アルゴリズムを提案する。
高レベル機構は、低レベルコントローラをタスクを通じてガイドし、後者が到達するサブゴールを選択する。
このシーケンスは、以前のメソッドのリターン・トゥ・ゴー(return-to-go)を置き換え、パフォーマンスを全体として改善する。
提案手法をOpenAIGym, D4RL, RoboMimicベンチマークの複数のタスクで検証する。
提案手法は,従来の課題知識を伴わない10タスクのうち8タスクのうち8タスクにおいてベースラインを上回り,シーケンスモデルを用いて実演から学習する階層モデルアプローチの利点を示す。
関連論文リスト
- KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Shift-Reduce Task-Oriented Semantic Parsing with Stack-Transformers [6.744385328015561]
Apple SiriやAmazon Alexaのようなタスク指向の対話システムは、ユーザの発話を処理し、実行するアクションを理解するために意味解析モジュールを必要とする。
この意味解析コンポーネントは最初、単純なクエリを処理するためのルールベースまたは統計的スロット補完アプローチによって実装された。
本稿では,タスク指向対話のためのニューラル・リデューサ・セマンティック・パーシングの研究を前進させる。
論文 参考訳(メタデータ) (2022-10-21T14:19:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Hierarchical Learning for Generation with Long Source Sequences [4.851392124435261]
我々は,複数のシーケンスから逐次タスクへ標準トランスフォーマーを上回る階層的アテンション・トランスフォーマティブ・ベース・アーキテクチャ(hat)を設計し,検討する。
本モデルでは,ArXiv,CNN/DM,SAMSum,AMIの4つの要約タスクに対して,最先端の成果を達成し,PubMed R1およびR2 SOTAをさらに推し進める。
論文 参考訳(メタデータ) (2021-04-15T15:57:32Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。