論文の概要: A Minimalist Prompt for Zero-Shot Policy Learning
- arxiv url: http://arxiv.org/abs/2405.06063v1
- Date: Thu, 9 May 2024 19:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:26:24.688014
- Title: A Minimalist Prompt for Zero-Shot Policy Learning
- Title(参考訳): ゼロショット政策学習のためのミニマリスト・プロンプト
- Authors: Meng Song, Xuezhi Wang, Tanay Biradar, Yao Qin, Manmohan Chandraker,
- Abstract要約: トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。
本稿では,タスクパラメータのみに決定変換器を条件付けすることで,実演条件と同等以上のゼロショット一般化を実現できることを示す。
我々は、ロボット制御、操作、ナビゲーションベンチマークタスクの範囲で、ゼロショットの一般化をさらに促進するために、さらに学習可能なプロンプトを導入する。
- 参考スコア(独自算出の注目度): 61.65128628634916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have exhibited significant generalization ability when prompted with target-domain demonstrations or example solutions during inference. Although demonstrations, as a way of task specification, can capture rich information that may be hard to specify by language, it remains unclear what information is extracted from the demonstrations to help generalization. Moreover, assuming access to demonstrations of an unseen task is impractical or unreasonable in many real-world scenarios, especially in robotics applications. These questions motivate us to explore what the minimally sufficient prompt could be to elicit the same level of generalization ability as the demonstrations. We study this problem in the contextural RL setting which allows for quantitative measurement of generalization and is commonly adopted by meta-RL and multi-task RL benchmarks. In this setting, the training and test Markov Decision Processes (MDPs) only differ in certain properties, which we refer to as task parameters. We show that conditioning a decision transformer on these task parameters alone can enable zero-shot generalization on par with or better than its demonstration-conditioned counterpart. This suggests that task parameters are essential for the generalization and DT models are trying to recover it from the demonstration prompt. To extract the remaining generalizable information from the supervision, we introduce an additional learnable prompt which is demonstrated to further boost zero-shot generalization across a range of robotic control, manipulation, and navigation benchmark tasks.
- Abstract(参考訳): トランスフォーマーに基づく手法は、推論中にターゲットドメインのデモや例解を誘導するときに、かなりの一般化能力を示す。
デモンストレーションは、タスク仕様の方法として、言語によっては特定が難しいようなリッチな情報をキャプチャすることができるが、一般化を支援するためにデモからどんな情報が抽出されているかは、まだ不明である。
さらに、目に見えないタスクのデモンストレーションへのアクセスを仮定することは、現実の多くのシナリオ、特にロボット工学の応用において非現実的または不合理である。
これらの質問は、デモと同じレベルの一般化能力を引き出すために、最小限のプロンプトがどのようなものかを探る動機となる。
本稿では,メタRLとマルチタスクRLベンチマークで広く採用されている一般化の定量的測定を可能にする文脈RL設定において,この問題を考察する。
この設定では、Markov Decision Processs (MDPs) のトレーニングとテストは特定の特性でのみ異なり、これはタスクパラメータと呼ばれる。
これらのタスクパラメータのみに決定変換器を条件付けすることで、デモ条件の値と同等以上のゼロショットの一般化が可能になることを示す。
これは、タスクパラメータが一般化に不可欠であり、DTモデルがデモプロンプトからそれを回復しようとしていることを示唆している。
そこで本研究では,ロボット制御,操作,ナビゲーションのベンチマークタスクにおいて,ゼロショットの一般化をさらに促進することを目的とした,学習可能な追加プロンプトを提案する。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。