論文の概要: Information-Theoretic Policy Pre-Training with Empowerment
- arxiv url: http://arxiv.org/abs/2510.05996v1
- Date: Tue, 07 Oct 2025 14:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.293479
- Title: Information-Theoretic Policy Pre-Training with Empowerment
- Title(参考訳): エンパワーメントによる情報理論政策事前学習
- Authors: Moritz Schneider, Robert Krug, Narunas Vaskevicius, Luigi Palmieri, Michael Volpp, Joschka Boedecker,
- Abstract要約: 本稿では,データ効率の低いダウンストリームタスク適応のための事前学習信号として,エンパワーメントが利用できることを示す。
本稿では,割引エンパワーメントを最大化するためのポリシーを初期化する,新しい事前学習パラダイムを提案する。
この枠組みを高次元かつ複雑なタスクに拡張するための今後の研究の道を開いた。
- 参考スコア(独自算出の注目度): 11.104497840016414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowerment, an information-theoretic measure of an agent's potential influence on its environment, has emerged as a powerful intrinsic motivation and exploration framework for reinforcement learning (RL). Besides for unsupervised RL and skill learning algorithms, the specific use of empowerment as a pre-training signal has received limited attention in the literature. We show that empowerment can be used as a pre-training signal for data-efficient downstream task adaptation. For this we extend the traditional notion of empowerment by introducing discounted empowerment, which balances the agent's control over the environment across short- and long-term horizons. Leveraging this formulation, we propose a novel pre-training paradigm that initializes policies to maximize discounted empowerment, enabling agents to acquire a robust understanding of environmental dynamics. We analyze empowerment-based pre-training for various existing RL algorithms and empirically demonstrate its potential as a general-purpose initialization strategy: empowerment-maximizing policies with long horizons are data-efficient and effective, leading to improved adaptability in downstream tasks. Our findings pave the way for future research to scale this framework to high-dimensional and complex tasks, further advancing the field of RL.
- Abstract(参考訳): エージェントが環境に与える影響に関する情報理論的な尺度であるエンパワーメントは、強化学習(RL)のための強力な本質的なモチベーションと探索の枠組みとして登場した。
教師なしのRLとスキル学習アルゴリズムに加えて、事前学習信号としてのエンパワーメントの特定の使用は、文献ではあまり注目されていない。
本稿では,データ効率の低いダウンストリームタスク適応のための事前学習信号として,エンパワーメントが利用できることを示す。
このために,従来のエンパワーメントの概念を,短縮エンパワーメントを導入して拡張し,エージェントの環境に対するコントロールを短期的,長期的にバランスさせる。
この定式化を生かして、ディスカウントエンパワーメントを最大化するためのポリシーを初期化し、エージェントが環境力学の堅牢な理解を得ることが可能な新しい事前学習パラダイムを提案する。
我々は、様々な既存RLアルゴリズムに対するエンパワーメントに基づく事前学習を分析し、その可能性を実証的に示す: 長い水平線を持つエンパワーメント最大化ポリシーは、データ効率が高く効果的であり、下流タスクにおける適応性の向上につながる。
我々の研究は、この枠組みを高次元かつ複雑なタスクに拡張する方法を開拓し、RLの分野をさらに前進させた。
関連論文リスト
- UAS Visual Navigation in Large and Unseen Environments via a Meta Agent [0.13654846342364302]
本研究では,大規模都市環境下でのナビゲーションを効率的に学習するためのメタカリキュラムトレーニング手法を提案する。
トレーニングカリキュラムを階層的に整理し,エージェントを粗い状態から目標タスクへ誘導する。
特定のタスクに対するポリシーの獲得に焦点を当てた従来の強化学習(RL)とは対照的に、MRLは、新しいタスクへの高速転送能力を持つポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2025-03-20T01:44:59Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。
既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。
動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - On the Power of Pre-training for Generalization in RL: Provable Benefits
and Hardness [47.09873295916592]
強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学習することを目的としている。
本稿では,RLの一般化を理論的側面から考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-19T10:58:24Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。