論文の概要: Multi-Horizon Representations with Hierarchical Forward Models for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.11396v2
- Date: Mon, 29 Jan 2024 09:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:03:09.505489
- Title: Multi-Horizon Representations with Hierarchical Forward Models for
Reinforcement Learning
- Title(参考訳): 階層的前方モデルを用いた強化学習のためのマルチホリゾン表現
- Authors: Trevor McInroe, Lukas Sch\"afer, Stefano V. Albrecht
- Abstract要約: 本稿では,コミュニケーションを学習するフォワードモデルの階層構造を用いて,複数の表現を学習する補助的タスクを提案する。
HKSLは,複数の代替表現学習手法よりも高速に,高次あるいは最適エピソードに収束することがわかった。
- 参考スコア(独自算出の注目度): 10.31844915748746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning control from pixels is difficult for reinforcement learning (RL)
agents because representation learning and policy learning are intertwined.
Previous approaches remedy this issue with auxiliary representation learning
tasks, but they either do not consider the temporal aspect of the problem or
only consider single-step transitions, which may cause learning inefficiencies
if important environmental changes take many steps to manifest. We propose
Hierarchical $k$-Step Latent (HKSL), an auxiliary task that learns multiple
representations via a hierarchy of forward models that learn to communicate and
an ensemble of $n$-step critics that all operate at varying magnitudes of step
skipping. We evaluate HKSL in a suite of 30 robotic control tasks with and
without distractors and a task of our creation. We find that HKSL either
converges to higher or optimal episodic returns more quickly than several
alternative representation learning approaches. Furthermore, we find that
HKSL's representations capture task-relevant details accurately across
timescales (even in the presence of distractors) and that communication
channels between hierarchy levels organize information based on both sides of
the communication process, both of which improve sample efficiency.
- Abstract(参考訳): 表現学習とポリシー学習が絡み合っているため、強化学習(RL)エージェントでは画素からの学習制御が難しい。
従来のアプローチでは、この問題を補助的な表現学習タスクで改善するが、それらは問題の時間的側面を考慮せず、また、重要な環境変化が多くのステップを踏むと学習の効率が低下する可能性がある。
我々は,コミュニケーションを学ぶフォワードモデルの階層と,ステップスキップのさまざまな大きさで操作するn$-step批判者のアンサンブルを通じて,複数の表現を学習する補助タスクである階層型$k$-step latent (hksl)を提案する。
我々は,HKSLを,イントラクタを伴わない30のロボット制御タスクと,創造のタスクで評価した。
HKSLは複数の代替表現学習手法よりも高速に高次あるいは最適エピソードの帰属に収束することがわかった。
さらに,hkslの表現が時間スケールをまたいだタスク関連詳細を正確に捉え,階層レベルのコミュニケーションチャネルがコミュニケーションプロセスの両側に基づいて情報を整理し,サンプル効率を向上させることを見出した。
関連論文リスト
- Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。