論文の概要: Zero-Shot Stitching in Reinforcement Learning using Relative Representations
- arxiv url: http://arxiv.org/abs/2404.12917v1
- Date: Fri, 19 Apr 2024 14:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:46:18.477107
- Title: Zero-Shot Stitching in Reinforcement Learning using Relative Representations
- Title(参考訳): 相対表現を用いた強化学習におけるゼロショットスティッチ
- Authors: Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà,
- Abstract要約: エージェントのコンポーネントを組み合わせることが可能であることを実証するために、潜伏表現を統一する最近の発展を活用している。
これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。
- 参考スコア(独自算出の注目度): 17.76990521486307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. However, it is also known that variations in the input (e.g., different colors of the panorama due to the season of the year) or the task (e.g., changing the speed limit for a car to respect) could require complete retraining of the agents. In this work, we leverage recent developments in unifying latent representations to demonstrate that it is possible to combine the components of an agent, rather than retrain it from scratch. We build upon the recent relative representations framework and adapt it for Visual RL. This allows us to create completely new agents capable of handling environment-task combinations never seen during training. Our work paves the road toward a more accessible and flexible use of reinforcement learning.
- Abstract(参考訳): ビジュアル強化学習(Visual Reinforcement Learning)は、ディープラーニングのブレークスルーを最大限に活用する、人気があり強力なフレームワークである。
しかし、入力(例えば、季節によってパノラマの色が異なる)やタスク(例えば、車に対する速度制限の変更)のバリエーションは、エージェントの完全な再訓練を必要とすることも知られている。
本研究では,エージェントのコンポーネントをスクラッチから再訓練するのではなく組み合わせることが可能であることを示すために,潜在表現を統一する最近の発展を活用している。
我々は最近、相対表現フレームワークを構築し、それをVisual RLに適用する。
これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。
私たちの仕事は、よりアクセスしやすくフレキシブルな強化学習への道を開く。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-30T13:24:58Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Temporal Disentanglement of Representations for Improved Generalisation
in Reinforcement Learning [7.972204774778987]
実世界のロボット工学の応用において、強化学習(RL)エージェントは、訓練中に観察されなかった環境変動に一般化できないことが多い。
本稿では,RL観測の逐次的性質を用いて,自己教師付き補助課題であるテポラル・ディスタングルメント(TED)を紹介した。
TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
論文 参考訳(メタデータ) (2022-07-12T11:46:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。