論文の概要: Contrastive Abstraction for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.00704v1
- Date: Tue, 1 Oct 2024 13:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:25:20.072093
- Title: Contrastive Abstraction for Reinforcement Learning
- Title(参考訳): 強化学習のための対照的な抽象化
- Authors: Vihang Patil, Markus Hofmarcher, Elisabeth Rumetshofer, Sepp Hochreiter,
- Abstract要約: 我々は抽象状態を見つけるために、対照的な抽象学習を提案する。
このような抽象状態は、基本的な場所、達成されたサブゴール、在庫、健康状態である。
本実験は,強化学習におけるコントラスト抽象学習の有効性を実証する。
- 参考スコア(独自算出の注目度): 8.380148441566604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning agents with reinforcement learning is difficult when dealing with long trajectories that involve a large number of states. To address these learning problems effectively, the number of states can be reduced by abstract representations that cluster states. In principle, deep reinforcement learning can find abstract states, but end-to-end learning is unstable. We propose contrastive abstraction learning to find abstract states, where we assume that successive states in a trajectory belong to the same abstract state. Such abstract states may be basic locations, achieved subgoals, inventory, or health conditions. Contrastive abstraction learning first constructs clusters of state representations by contrastive learning and then applies modern Hopfield networks to determine the abstract states. The first phase of contrastive abstraction learning is self-supervised learning, where contrastive learning forces states with sequential proximity to have similar representations. The second phase uses modern Hopfield networks to map similar state representations to the same fixed point, i.e.\ to an abstract state. The level of abstraction can be adjusted by determining the number of fixed points of the modern Hopfield network. Furthermore, \textit{contrastive abstraction learning} does not require rewards and facilitates efficient reinforcement learning for a wide range of downstream tasks. Our experiments demonstrate the effectiveness of contrastive abstraction learning for reinforcement learning.
- Abstract(参考訳): 多くの状態を含む長い軌跡を扱う場合、強化学習を伴う学習エージェントは困難である。
これらの学習問題を効果的に解決するために、クラスタ状態の抽象表現によって、状態の数を減らすことができる。
原則として、深層強化学習は抽象状態を見つけることができるが、エンドツーエンド学習は不安定である。
本稿では,抽象状態を見つけるための対照的な抽象学習を提案し,そこでは軌道上の連続状態が同じ抽象状態に属すると仮定する。
このような抽象状態は、基本的な場所、達成されたサブゴール、在庫、健康状態である。
コントラスト的抽象学習は、まずコントラスト的学習によって状態表現のクラスタを構築し、次に抽象状態を決定するために近代ホップフィールドネットワークを適用した。
コントラスト的抽象学習の第1段階は自己教師型学習であり、コントラスト的学習力は、類似した表現を持つために連続的に近接している。
第2フェーズでは、現代的なホップフィールドネットワークを使用して、同様の状態表現を同じ固定点、すなわち抽象状態にマッピングする。
抽象レベルは、現代のホップフィールドネットワークの固定点数を決定することで調整できる。
さらに、‘textit{contrastive abstract learning} は報酬を必要とせず、幅広い下流タスクに対する効率的な強化学習を促進する。
本実験は,強化学習におけるコントラスト抽象学習の有効性を実証する。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - MDP Abstraction with Successor Features [14.433551477386318]
本研究では,エージェントが状態や時間的抽象化を行う強化学習の文脈における抽象化について検討する。
本研究では,後継機能に基づく新しい抽象スキームである後継抽象化を提案する。
我々の後継抽象化は、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。
論文 参考訳(メタデータ) (2021-10-18T11:35:08Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z) - Learning State Abstractions for Transfer in Continuous Control [39.177104130939185]
我々は「単純な学習アルゴリズム」を表形式のQ-ラーニング、学習状態の抽象化に「良い表現」、連続的な制御タスクに「問題に対処」する。
私たちの主な貢献は、連続的な状態空間を離散的な状態空間に抽象化する学習アルゴリズムです。
論文 参考訳(メタデータ) (2020-02-08T20:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。