論文の概要: In-Context Reinforcement Learning for Variable Action Spaces
- arxiv url: http://arxiv.org/abs/2312.13327v3
- Date: Fri, 9 Feb 2024 19:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:06:30.635131
- Title: In-Context Reinforcement Learning for Variable Action Spaces
- Title(参考訳): 可変動作空間に対するインコンテキスト強化学習
- Authors: Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman,
Sergey Kolesnikov
- Abstract要約: Headless-ADは、可変サイズ、セマンティックコンテンツ、順序の離散的なアクション空間に一般化することができる。
我々は、ヘッドレスADは、これまでに遭遇したことのないアクション空間に一般化する重要な能力を示すことを示した。
- 参考スコア(独自算出の注目度): 49.05502570281514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been shown that transformers pre-trained on diverse datasets
with multi-episode contexts can generalize to new reinforcement learning tasks
in-context. A key limitation of previously proposed models is their reliance on
a predefined action space size and structure. The introduction of a new action
space often requires data re-collection and model re-training, which can be
costly for some applications. In our work, we show that it is possible to
mitigate this issue by proposing the Headless-AD model that, despite being
trained only once, is capable of generalizing to discrete action spaces of
variable size, semantic content and order. By experimenting with Bernoulli and
contextual bandits, as well as a gridworld environment, we show that
Headless-AD exhibits significant capability to generalize to action spaces it
has never encountered, even outperforming specialized models trained for a
specific set of actions on several environment configurations.
- Abstract(参考訳): 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。
前述したモデルの主な制限は、事前に定義されたアクション空間のサイズと構造に依存することである。
新しいアクション空間の導入には、しばしばデータの再コレクションとモデルの再トレーニングが必要となる。
本研究では,1回しか訓練されていないにもかかわらず,可変サイズ,意味的内容,順序の離散的行動空間に一般化できるヘッドレスアドモデルを提案することで,この問題を緩和できることを示す。
Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Generalization to New Sequential Decision Making Tasks with In-Context
Learning [23.36106067650874]
少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
論文 参考訳(メタデータ) (2023-12-06T15:19:28Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-18T14:59:42Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene
Rearrangement Planning [28.9887381071402]
SRP(Scene Rearrangement Planning)のための細かいアクション定義を提案し、大規模なシーン再配置データセットを導入する。
また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T03:27:16Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。