論文の概要: Hyper-Decision Transformer for Efficient Online Policy Adaptation
- arxiv url: http://arxiv.org/abs/2304.08487v1
- Date: Mon, 17 Apr 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:54:05.560367
- Title: Hyper-Decision Transformer for Efficient Online Policy Adaptation
- Title(参考訳): オンライン政策適応のためのハイパーデシジョン変圧器
- Authors: Mengdi Xu, Yuchen Lu, Yikang Shen, Shun Zhang, Ding Zhao, Chuang Gan
- Abstract要約: 我々は,ごく少数のデモから新しいタスクを一般化できるHyper-Decision Transformer (HDT) と呼ばれる新しいフレームワークを提案する。
1つの専門家によるデモンストレーションと、DTパラメータの0.5%のみ微調整を行うことで、HDTはDTモデル全体を微調整するよりも、目に見えないタスクに迅速に適応できることがわかった。
- 参考スコア(独自算出の注目度): 66.91294935068957
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Decision Transformers (DT) have demonstrated strong performances in offline
reinforcement learning settings, but quickly adapting to unseen novel tasks
remains challenging. To address this challenge, we propose a new framework,
called Hyper-Decision Transformer (HDT), that can generalize to novel tasks
from a handful of demonstrations in a data- and parameter-efficient manner. To
achieve such a goal, we propose to augment the base DT with an adaptation
module, whose parameters are initialized by a hyper-network. When encountering
unseen tasks, the hyper-network takes a handful of demonstrations as inputs and
initializes the adaptation module accordingly. This initialization enables HDT
to efficiently adapt to novel tasks by only fine-tuning the adaptation module.
We validate HDT's generalization capability on object manipulation tasks. We
find that with a single expert demonstration and fine-tuning only 0.5% of DT
parameters, HDT adapts faster to unseen tasks than fine-tuning the whole DT
model. Finally, we explore a more challenging setting where expert actions are
not available, and we show that HDT outperforms state-of-the-art baselines in
terms of task success rates by a large margin.
- Abstract(参考訳): 決定変換器(DT)はオフラインの強化学習環境において強い性能を示したが、目立たない新しいタスクに迅速に適応することは依然として困難である。
この課題に対処するために,データとパラメータ効率の両面で,少数のデモから新しいタスクを一般化するHyper-Decision Transformer (HDT) という新しいフレームワークを提案する。
このような目的を達成するために,パラメータをハイパーネットワークで初期化する適応モジュールによるベースDTの拡張を提案する。
目に見えないタスクに遭遇すると、ハイパーネットワークはいくつかのデモを入力として受け取り、適応モジュールを初期化する。
この初期化により、HDTは適応モジュールを微調整するだけで、新しいタスクに効率的に適応できる。
オブジェクト操作タスクにおけるHDTの一般化機能を検証する。
1つの専門家によるデモンストレーションと、DTパラメータの0.5%のみ微調整を行うことで、HDTはDTモデル全体を微調整するよりも、目に見えないタスクに迅速に適応できることがわかった。
最後に、専門家のアクションが利用できない、より困難な状況について検討し、HDTがタスク成功率の点で最先端のベースラインをはるかに上回ることを示す。
関連論文リスト
- Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - TAIL: Task-specific Adapters for Imitation Learning with Large
Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。
言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。
大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T17:49:50Z) - Improved Test-Time Adaptation for Domain Generalization [48.239665441875374]
テストタイムトレーニング(TTT)は、学習したモデルにテストデータを適用する。
この作業は2つの主な要因に対処する: テストフェーズ中にアップデートする信頼性のあるパラメータを更新および識別するための適切な補助的TTTタスクを選択する。
トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
論文 参考訳(メタデータ) (2023-04-10T10:12:38Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。