論文の概要: In-Context Reinforcement Learning for Variable Action Spaces
- arxiv url: http://arxiv.org/abs/2312.13327v1
- Date: Wed, 20 Dec 2023 16:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:01:11.806325
- Title: In-Context Reinforcement Learning for Variable Action Spaces
- Title(参考訳): 可変動作空間に対するインコンテキスト強化学習
- Authors: Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman,
Sergey Kolesnikov
- Abstract要約: 我々は,新しい行動空間に一般化するタスクに特化して,アーキテクチャとトレーニング手法を開発する。
ランダムな埋め込みを使用して、コンテキストからアクションのセマンティック推論を強制し、テスト期間中に新しい目に見えない埋め込みに備えます。
本モデルでは,新しい環境ごとに再学習することなく,データ生成アルゴリズムの性能を向上する。
- 参考スコア(独自算出の注目度): 49.05502570281514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that supervised pre-training on learning histories of
RL algorithms results in a model that captures the learning process and is able
to improve in-context on novel tasks through interactions with an environment.
Despite the progress in this area, there is still a gap in the existing
literature, particularly in the in-context generalization to new action spaces.
While existing methods show high performance on new tasks created by different
reward distributions, their architectural design and training process are not
suited for the introduction of new actions during evaluation. We aim to bridge
this gap by developing an architecture and training methodology specifically
for the task of generalizing to new action spaces. Inspired by Headless LLM, we
remove the dependence on the number of actions by directly predicting the
action embeddings. Furthermore, we use random embeddings to force the semantic
inference of actions from context and to prepare for the new unseen embeddings
during test time. Using multi-armed bandit environments with a variable number
of arms, we show that our model achieves the performance of the data generation
algorithm without requiring retraining for each new environment.
- Abstract(参考訳): 近年の研究では、RLアルゴリズムの学習履歴を教師付き事前学習することで、学習過程を捉え、環境との相互作用を通じて新しいタスクの文脈を改善することができるモデルが得られることが示されている。
この領域の進歩にもかかわらず、既存の文献、特に新しいアクション空間への文脈内一般化においてはまだギャップがある。
既存の手法では報酬分布が異なる新しいタスクに対して高いパフォーマンスを示すが、そのアーキテクチャ設計とトレーニングプロセスは評価中に新しいアクションを導入するのに適していない。
このギャップを埋めるために、新しいアクション空間に一般化するタスクに特化したアーキテクチャとトレーニング方法論を開発する。
Headless LLMにインスパイアされた我々は、アクション埋め込みを直接予測することで、アクションの数への依存を取り除く。
さらに、文脈からのアクションの意味的推論を強制するためにランダム埋め込みを使用し、テスト時間中に新しい未知の埋め込みに備える。
腕数可変のマルチアームバンディット環境を用いることで,新たな環境毎に再トレーニングを必要とせず,データ生成アルゴリズムの性能を実現できることを示す。
関連論文リスト
- A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - POA: Pre-training Once for Models of All Sizes [33.72644336390202]
我々はPOA(Pre-Treating Once for All)と呼ばれる新しい三枝型自己教師型トレーニングフレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
ViT、Swin Transformer、ResNetのバックボーンを使って最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-02T06:13:29Z) - Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning [65.57123249246358]
PTMベースのCILのためのExpAndable Subspace Ensemble (EASE)を提案する。
タスク固有のサブスペースを作成することを目的として、新しいタスクごとに異なる軽量アダプタモジュールをトレーニングする。
我々のプロトタイプ補完戦略は、古いクラスのインスタンスを使わずに、古いクラスの新機能を合成します。
論文 参考訳(メタデータ) (2024-03-18T17:58:13Z) - Generalization to New Sequential Decision Making Tasks with In-Context
Learning [23.36106067650874]
少数のデモから新しいタスクを学習できる自律エージェントの訓練は、機械学習における長年の問題である。
本稿では,変換器を逐次決定問題に適用しても,新しいタスクの文脈内学習は不可能であることを示す。
我々は、異なる設計選択を調査し、より大きなモデルとデータセットサイズ、さらにタスクの多様性、環境、トラジェクトリのバーストネスが、新しいアウト・オブ・ディストリビューションタスクのコンテキスト内学習の改善をもたらすことを発見した。
論文 参考訳(メタデータ) (2023-12-06T15:19:28Z) - Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-18T14:59:42Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。