論文の概要: Hierarchical Prompt Decision Transformer: Improving Few-Shot Policy Generalization with Global and Adaptive
- arxiv url: http://arxiv.org/abs/2412.00979v1
- Date: Sun, 01 Dec 2024 22:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:33.516935
- Title: Hierarchical Prompt Decision Transformer: Improving Few-Shot Policy Generalization with Global and Adaptive
- Title(参考訳): 階層型プロンプト決定変換器:グローバル・アダプティブによるFew-Shot Policy Generalizationの改善
- Authors: Zhe Wang, Haozhu Wang, Yanjun Qi,
- Abstract要約: 本稿では,検索拡張によって実現した階層的プロンプト手法を提案する。
本手法は,2層のソフトトークンを導出プロンプトとして学習する。
アダプティブトークンは、キュレートされたデモセグメントから動的に取得され、コンテキスト対応のガイダンスが保証される。
- 参考スコア(独自算出の注目度): 14.898255296225337
- License:
- Abstract: Decision transformers recast reinforcement learning as a conditional sequence generation problem, offering a simple but effective alternative to traditional value or policy-based methods. A recent key development in this area is the integration of prompting in decision transformers to facilitate few-shot policy generalization. However, current methods mainly use static prompt segments to guide rollouts, limiting their ability to provide context-specific guidance. Addressing this, we introduce a hierarchical prompting approach enabled by retrieval augmentation. Our method learns two layers of soft tokens as guiding prompts: (1) global tokens encapsulating task-level information about trajectories, and (2) adaptive tokens that deliver focused, timestep-specific instructions. The adaptive tokens are dynamically retrieved from a curated set of demonstration segments, ensuring context-aware guidance. Experiments across seven benchmark tasks in the MuJoCo and MetaWorld environments demonstrate the proposed approach consistently outperforms all baseline methods, suggesting that hierarchical prompting for decision transformers is an effective strategy to enable few-shot policy generalization.
- Abstract(参考訳): 決定変換器は、強化学習を条件付きシーケンス生成問題として再考し、従来の価値やポリシーに基づく方法に代わる単純で効果的な代替手段を提供する。
この領域における最近の重要な発展は、少数ショットポリシーの一般化を促進するための意思決定変換器の統合である。
しかし、現在のメソッドは主に静的プロンプトセグメントを使用してロールアウトをガイドし、コンテキスト固有のガイダンスを提供する能力を制限する。
これに対応するために,検索拡張によって実現した階層的プロンプト手法を提案する。
本手法は,(1)タスクレベルのトラジェクトリ情報をカプセル化したグローバルトークン,(2)集中型タイムステップ固有の命令を提供する適応トークンの2層を導出する。
適応トークンは、キュレートされたデモセグメントから動的に取得され、コンテキスト対応のガイダンスが保証される。
MuJoCoとMetaWorld環境における7つのベンチマークタスクを対象とした実験では、提案手法がすべてのベースラインメソッドを一貫して上回り、階層的な決定トランスフォーマーのプロンプトが、少数ショットポリシーの一般化を可能にする効果的な戦略であることを示唆している。
関連論文リスト
- EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。