Fugu-MT 論文翻訳(概要): Zero-Shot Stitching in Reinforcement Learning using Relative Representations

論文の概要: Zero-Shot Stitching in Reinforcement Learning using Relative Representations

arxiv url: http://arxiv.org/abs/2404.12917v1
Date: Fri, 19 Apr 2024 14:42:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 14:46:18.477107
Title: Zero-Shot Stitching in Reinforcement Learning using Relative Representations
Title（参考訳）: 相対表現を用いた強化学習におけるゼロショットスティッチ
Authors: Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà,
Abstract要約: エージェントのコンポーネントを組み合わせることが可能であることを実証するために、潜伏表現を統一する最近の発展を活用している。これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。
参考スコア（独自算出の注目度）: 17.76990521486307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. However, it is also known that variations in the input (e.g., different colors of the panorama due to the season of the year) or the task (e.g., changing the speed limit for a car to respect) could require complete retraining of the agents. In this work, we leverage recent developments in unifying latent representations to demonstrate that it is possible to combine the components of an agent, rather than retrain it from scratch. We build upon the recent relative representations framework and adapt it for Visual RL. This allows us to create completely new agents capable of handling environment-task combinations never seen during training. Our work paves the road toward a more accessible and flexible use of reinforcement learning.
Abstract（参考訳）: ビジュアル強化学習(Visual Reinforcement Learning)は、ディープラーニングのブレークスルーを最大限に活用する、人気があり強力なフレームワークである。しかし、入力(例えば、季節によってパノラマの色が異なる)やタスク(例えば、車に対する速度制限の変更)のバリエーションは、エージェントの完全な再訓練を必要とすることも知られている。本研究では,エージェントのコンポーネントをスクラッチから再訓練するのではなく組み合わせることが可能であることを示すために,潜在表現を統一する最近の発展を活用している。我々は最近、相対表現フレームワークを構築し、それをVisual RLに適用する。これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。私たちの仕事は、よりアクセスしやすくフレキシブルな強化学習への道を開く。

関連論文リスト

Mapping representations in Reinforcement Learning via Semantic Alignment for Zero-Shot Stitching [17.76990521486307]
深層強化学習モデルは、環境の観察やタスク要求に小さな変化があったとしても、一般化に失敗することが多い。そこで本稿では,視覚的およびタスクのバリエーションを学習したエージェント間での潜伏空間間のマッピングをゼロショットで行う手法を提案する。背景と作業が変化するCarRacing環境において,ゼロショット縫合性能を実証的に実証した。
論文参考訳（メタデータ） (2025-02-26T22:06:00Z)
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI [44.77897322913095]
エンボディエージェントのためのテキスト内強化学習のための新しい手法であるReLICを提案する。 Relicでは、エージェントは64,000ステップのコンテキスト内エクスペリエンスを使用して、新しい環境に適応することができる。 Relicは、専門家によるデモンストレーションでトレーニングを受けなくても、数発の模倣学習が可能であることに気付きました。
論文参考訳（メタデータ） (2024-10-03T17:58:11Z)
Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳（メタデータ） (2024-06-14T13:12:07Z)
Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。 RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文参考訳（メタデータ） (2024-03-30T13:24:58Z)
Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文参考訳（メタデータ） (2024-02-05T00:48:56Z)
Look-Ahead Selective Plasticity for Continual Learning of Visual Tasks [9.82510084910641]
タスク境界において,タスクが終了し,他のタスク開始時に発生する新しいメカニズムを提案する。 CIFAR10やTinyImagenetなどのコンピュータビジョンデータセットのベンチマークで提案手法を評価する。
論文参考訳（メタデータ） (2023-11-02T22:00:23Z)
Temporal Disentanglement of Representations for Improved Generalisation in Reinforcement Learning [7.972204774778987]
実世界のロボット工学の応用において、強化学習(RL)エージェントは、訓練中に観察されなかった環境変動に一般化できないことが多い。本稿では,RL観測の逐次的性質を用いて,自己教師付き補助課題であるテポラル・ディスタングルメント(TED)を紹介した。 TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
論文参考訳（メタデータ） (2022-07-12T11:46:49Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T17:59:20Z)
Meta-Learning with Variational Bayes [0.0]
生成メタ学習のより一般的な問題に対処する新しいアプローチを提案する。我々の貢献は、AEVBフレームワークと平均場変動ベイズを活用し、高速適応潜在空間生成モデルを作成する。我々の貢献の核心は新たな成果であり、広範囲の深層生成潜在変数モデルにおいて、関連するVB更新は生成ニューラルネットワークに依存しないことを示している。
論文参考訳（メタデータ） (2021-03-03T09:02:01Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Essentials for Class Incremental Learning [43.306374557919646]
CIFAR-100とImageNetのクラスインクリメンタルな学習結果は、アプローチをシンプルに保ちながら、最先端の成果を大きなマージンで改善します。
論文参考訳（メタデータ） (2021-02-18T18:01:06Z)
Graph-Based Neural Network Models with Multiple Self-Supervised Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文参考訳（メタデータ） (2020-11-14T11:09:51Z)
Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文参考訳（メタデータ） (2020-10-06T04:38:16Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)
ELSIM: End-to-end learning of reusable skills through intrinsic motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文参考訳（メタデータ） (2020-06-23T11:20:46Z)
Towards Backward-Compatible Representation Learning [86.39292571306395]
異なる次元であっても,従来の計算機能と互換性のある視覚的特徴を学習する方法を提案する。これにより、埋め込みモデルを更新する際に、以前見たすべての画像の新機能の計算を回避できる。本稿では、後方互換表現学習の第一歩として、後方互換学習(BCT)と呼ばれる埋め込みモデルを訓練するためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-26T14:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。