論文の概要: R3L: Relative Representations for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12917v3
- Date: Tue, 18 Feb 2025 15:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:48.094408
- Title: R3L: Relative Representations for Reinforcement Learning
- Title(参考訳): R3L:強化学習のための相対表現
- Authors: Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà,
- Abstract要約: 入力領域の変化(例えば、季節変化によるパノラマ色の変化)がエージェントのパフォーマンスを損なうことが知られている。
表現学習の分野での最近の進歩は、新しいモデルを作るためにコンポーネントを組み合わせる可能性を示している。
我々は、このフレームワークをVisual Reinforcement Learningの設定に適応させ、エージェントコンポーネントを組み合わせて新しいビジュアルタスクペアを効果的に処理できる新しいエージェントを作成する。
- 参考スコア(独自算出の注目度): 17.76990521486307
- License:
- Abstract: Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. It is known that variations in input domains (e.g., different panorama colors due to seasonal changes) or task domains (e.g., altering the target speed of a car) can disrupt agent performance, necessitating new training for each variation. Recent advancements in the field of representation learning have demonstrated the possibility of combining components from different neural networks to create new models in a zero-shot fashion. In this paper, we build upon relative representations, a framework that maps encoder embeddings to a universal space. We adapt this framework to the Visual Reinforcement Learning setting, allowing to combine agents components to create new agents capable of effectively handling novel visual-task pairs not encountered during training. Our findings highlight the potential for model reuse, significantly reducing the need for retraining and, consequently, the time and computational resources required.
- Abstract(参考訳): ビジュアル強化学習(Visual Reinforcement Learning)は、ディープラーニングのブレークスルーを最大限に活用する、人気があり強力なフレームワークである。
入力領域(季節変化によるパノラマ色の変化など)やタスク領域(自動車の目標速度の変更など)の変動がエージェント性能を損なう可能性があることが知られており、各変動に対する新たな訓練が必要である。
表現学習の分野での最近の進歩は、異なるニューラルネットワークのコンポーネントを組み合わせてゼロショット方式で新しいモデルを作成する可能性を実証している。
本稿では,エンコーダの埋め込みを普遍空間にマッピングするフレームワークである相対表現を構築した。
我々は、このフレームワークをVisual Reinforcement Learningの設定に適応させ、エージェントコンポーネントを組み合わせることで、トレーニング中に遭遇しない新しいビジュアルタスクペアを効果的に処理できる新しいエージェントを作成できる。
本研究は, モデル再利用の可能性を強調し, 再訓練の必要性を著しく低減し, 時間と計算資源の確保を図った。
関連論文リスト
- ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。
Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。
Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文 参考訳(メタデータ) (2024-10-03T17:58:11Z) - Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-30T13:24:58Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Temporal Disentanglement of Representations for Improved Generalisation
in Reinforcement Learning [7.972204774778987]
実世界のロボット工学の応用において、強化学習(RL)エージェントは、訓練中に観察されなかった環境変動に一般化できないことが多い。
本稿では,RL観測の逐次的性質を用いて,自己教師付き補助課題であるテポラル・ディスタングルメント(TED)を紹介した。
TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
論文 参考訳(メタデータ) (2022-07-12T11:46:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。