論文の概要: Task Adaptation from Skills: Information Geometry, Disentanglement, and New Objectives for Unsupervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.10629v1
- Date: Thu, 12 Jun 2025 12:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.720302
- Title: Task Adaptation from Skills: Information Geometry, Disentanglement, and New Objectives for Unsupervised Reinforcement Learning
- Title(参考訳): スキルからのタスク適応:教師なし強化学習のための情報幾何学, 絡み合い, および新しい目的
- Authors: Yucheng Yang, Tianyi Zhou, Qiang He, Lei Han, Mykola Pechenizkiy, Meng Fang,
- Abstract要約: 教師なし強化学習(URL)は、下流タスクの一般的なスキルを学ぶことを目的としている。
相互情報スキル学習(Mitual Information Skill Learning、MISL)は、状態とスキル間の相互情報を最大化することでURLに対処する。
ダウンストリームタスク適応には,学習スキルの多様性と分離性が不可欠であることを示す。
- 参考スコア(独自算出の注目度): 51.64159273322819
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unsupervised reinforcement learning (URL) aims to learn general skills for unseen downstream tasks. Mutual Information Skill Learning (MISL) addresses URL by maximizing the mutual information between states and skills but lacks sufficient theoretical analysis, e.g., how well its learned skills can initialize a downstream task's policy. Our new theoretical analysis in this paper shows that the diversity and separability of learned skills are fundamentally critical to downstream task adaptation but MISL does not necessarily guarantee these properties. To complement MISL, we propose a novel disentanglement metric LSEPIN. Moreover, we build an information-geometric connection between LSEPIN and downstream task adaptation cost. For better geometric properties, we investigate a new strategy that replaces the KL divergence in information geometry with Wasserstein distance. We extend the geometric analysis to it, which leads to a novel skill-learning objective WSEP. It is theoretically justified to be helpful to downstream task adaptation and it is capable of discovering more initial policies for downstream tasks than MISL. We finally propose another Wasserstein distance-based algorithm PWSEP that can theoretically discover all optimal initial policies.
- Abstract(参考訳): 教師なし強化学習(URL)は、下流タスクの一般的なスキルを学ぶことを目的としている。
相互情報スキル学習(Mitual Information Skill Learning、MISL)は、状態とスキル間の相互情報の最大化によってURLに対処するが、十分な理論的分析がない。
本論文では,学習スキルの多様性と分離性は,下流のタスク適応には基本的に重要であるが,MISLは必ずしもこれらの特性を保証していないことを示す。
そこで本研究では,MISLを補完する新しいアンタングルメント指標LSEPINを提案する。
さらに、LSEPINと下流タスク適応コストとの間に情報幾何学的接続を構築する。
より優れた幾何学的性質を得るために、情報幾何学におけるKLの発散をワッサーシュタイン距離に置き換える新しい戦略について検討する。
我々は幾何学的解析を拡張し、新たなスキル学習目標WSEPへと導いた。
ダウンストリームタスク適応に有効であることが理論的に正当化され、MISLよりもダウンストリームタスクの初期ポリシーを発見できる。
我々は最終的に、理論的に全ての最適初期ポリシーを発見できる別のワッサーシュタイン距離ベースアルゴリズム PWSEP を提案する。
関連論文リスト
- Language-guided Skill Learning with Temporal Variational Inference [38.733622157088035]
専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T07:19:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。