Fugu-MT 論文翻訳(概要): Predictive Representations for Skill Transfer in Reinforcement Learning

論文の概要: Predictive Representations for Skill Transfer in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.07016v1
Date: Wed, 08 Apr 2026 12:35:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.521668
Title: Predictive Representations for Skill Transfer in Reinforcement Learning
Title（参考訳）: 強化学習におけるスキル伝達の予測的表現
Authors: Ruben Vereecken, Luke Dickens, Alessandra Russo,
Abstract要約: 強化学習のスケールアップにおける主な課題は、学習した振る舞いを一般化することである。我々は、状態抽象化による転送のための新しいフォーマリズムを開発する。
参考スコア（独自算出の注目度）: 46.51727738073925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key challenge in scaling up Reinforcement Learning is generalizing learned behaviour. Without the ability to carry forward acquired knowledge an agent is doomed to learn each task from scratch. In this paper we develop a new formalism for transfer by virtue of state abstraction. Based on task-independent, compact observations (outcomes) of the environment, we introduce Outcome-Predictive State Representations (OPSRs), agent-centered and task-independent abstractions that are made up of predictions of outcomes. We show formally and empirically that they have the potential for optimal but limited transfer, then overcome this trade-off by introducing OPSR-based skills, i.e. abstract actions (based on options) that can be reused between tasks as a result of state abstraction. In a series of empirical studies, we learn OPSR-based skills from demonstrations and show how they speed up learning considerably in entirely new and unseen tasks without any pre-processing. We believe that the framework introduced in this work is a promising step towards transfer in RL in general, and towards transfer through combining state and action abstraction specifically.
Abstract（参考訳）: 強化学習のスケールアップにおける重要な課題は、学習した振る舞いを一般化することだ。獲得した知識を前進させる能力がなければ、エージェントは各タスクをゼロから学習する運命が与えられる。本稿では、状態抽象化による転送のための新しい形式を考案する。タスクに依存しない、コンパクトな環境観察(アウトカム)に基づいて、結果の予測で構成されたエージェント中心およびタスク非依存の抽象化である、アウトカム予測状態表現(OPSR)を導入する。最適だが限定的な転送の可能性があることを正式に実証的に示すとともに、状態抽象化の結果としてタスク間で再利用可能な抽象アクション(オプションに基づく)というOPSRベースのスキルを導入することで、このトレードオフを克服する。実験的な研究のシリーズでは、デモからOPSRベースのスキルを学び、前処理なしで全く新しい、目に見えないタスクで学習をかなりスピードアップする方法を示します。この研究で導入されたフレームワークは、一般的にはRLの転送、特に状態とアクションの抽象化の組み合わせによる転送に向けた有望なステップであると考えています。

関連論文リスト

Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。 HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文参考訳（メタデータ） (2023-10-11T06:51:46Z)
State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文参考訳（メタデータ） (2023-09-21T11:41:22Z)
Contextual Pre-planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning [20.272179949107514]
深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向にある。我々は、報酬機(RM)を用いた現在の課題を表現するための新しい手法を提案する。提案手法は, エージェントに対して, 現在の抽象状態からの最適遷移の記号表現を提供し, それらの遷移を達成するための報酬を与える。
論文参考訳（メタデータ） (2023-07-11T12:28:05Z)
TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。 TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2023-06-22T22:21:53Z)
Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文参考訳（メタデータ） (2021-09-28T10:11:07Z)
Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文参考訳（メタデータ） (2021-02-22T18:56:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。