論文の概要: Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals
- arxiv url: http://arxiv.org/abs/2601.19810v1
- Date: Tue, 27 Jan 2026 17:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.411424
- Title: Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals
- Title(参考訳): 効率的な探索の教師なし学習:自己付与ゴールによる適応型政策の事前学習
- Authors: Octavio Pappalardo,
- Abstract要約: 教師なし事前学習は、強化学習エージェントに事前知識を付与し、下流タスクでの学習を加速することができる。
本稿では,文脈内学習者と対向目標生成戦略を組み合わせた教師なしメタ学習手法ULEEを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pre-training can equip reinforcement learning agents with prior knowledge and accelerate learning in downstream tasks. A promising direction, grounded in human development, investigates agents that learn by setting and pursuing their own goals. The core challenge lies in how to effectively generate, select, and learn from such goals. Our focus is on broad distributions of downstream tasks where solving every task zero-shot is infeasible. Such settings naturally arise when the target tasks lie outside of the pre-training distribution or when their identities are unknown to the agent. In this work, we (i) optimize for efficient multi-episode exploration and adaptation within a meta-learning framework, and (ii) guide the training curriculum with evolving estimates of the agent's post-adaptation performance. We present ULEE, an unsupervised meta-learning method that combines an in-context learner with an adversarial goal-generation strategy that maintains training at the frontier of the agent's capabilities. On XLand-MiniGrid benchmarks, ULEE pre-training yields improved exploration and adaptation abilities that generalize to novel objectives, environment dynamics, and map structures. The resulting policy attains improved zero-shot and few-shot performance, and provides a strong initialization for longer fine-tuning processes. It outperforms learning from scratch, DIAYN pre-training, and alternative curricula.
- Abstract(参考訳): 教師なし事前学習は、強化学習エージェントに事前知識を付与し、下流タスクでの学習を加速することができる。
人間の発達に根ざした有望な方向は、自分自身の目標を設定し、追求することで学習するエージェントを調査する。
最大の課題は、このような目標を効果的に生成し、選択し、学習する方法です。
私たちの焦点は、すべてのタスクをゼロショットで解くことが不可能なダウンストリームタスクの広範な分散に焦点を当てています。
このような設定は、対象のタスクがトレーニング前のディストリビューションの外にある場合や、エージェントにそのIDが不明な場合に自然に発生する。
この作品では、
(i)メタラーニングフレームワーク内での効率的な多面的探索・適応のための最適化
(II) エージェントの適応後の業績の予測を進化させ、研修カリキュラムを指導する。
本稿では,教師なしのメタ学習手法であるULEEと,エージェントの能力の最前線で訓練を継続する対人目標生成戦略を併用する。
XLand-MiniGridベンチマークでは、ULEE事前学習は、新しい目的、環境力学、マップ構造に一般化する探索と適応能力を改善する。
その結果、ゼロショットと少数ショットのパフォーマンスが向上し、より長い微調整プロセスに強力な初期化を提供する。
それは、スクラッチ、DIAYN事前学習、代替のカリキュラムから学習を上回ります。
関連論文リスト
- Environment Agnostic Goal-Conditioning, A Study of Reward-Free Autonomous Learning [0.0]
エージェントは,環境に依存しない方法で,自身の目標を選択することで,タスクの解き方を学ぶことができることを示す。
我々の手法は、基礎となる非政治学習アルゴリズムとは無関係である。
論文 参考訳(メタデータ) (2025-11-06T17:51:11Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System [54.71619734800526]
GenMentorは、ITS内で目標指向でパーソナライズされた学習を提供するために設計されたマルチエージェントフレームワークである。
学習者の目標を、カスタムのゴール・トゥ・スキルデータセットでトレーニングされた微調整LDMを使用して、必要なスキルにマッピングする。
GenMentorは、個々の学習者のニーズに合わせて探索・描画・統合機構で学習内容を調整する。
論文 参考訳(メタデータ) (2025-01-27T03:29:44Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。