論文の概要: Constrained Intrinsic Motivation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.09247v1
- Date: Fri, 12 Jul 2024 13:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:28:21.024465
- Title: Constrained Intrinsic Motivation for Reinforcement Learning
- Title(参考訳): 強化学習のための制約付き固有の動機づけ
- Authors: Xiang Zheng, Xingjun Ma, Chao Shen, Cong Wang,
- Abstract要約: Intrinsic Motivation (IM) は、Reward-Free Pre-Training タスクの強化学習や、Intrinsic Motivation (EIM) タスクの探索に使用される。
既存のIM手法は、静的スキル、限られた状態カバレッジ、RFPTタスクのサンプル非効率、EIMタスクのサブ最適性に悩まされている。
本稿では,RFPTタスクとEIMタスクに対するemphConstrained Intrinsic Motivation(CIM)を提案する。
- 参考スコア(独自算出の注目度): 28.6289921495116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates two fundamental problems that arise when utilizing Intrinsic Motivation (IM) for reinforcement learning in Reward-Free Pre-Training (RFPT) tasks and Exploration with Intrinsic Motivation (EIM) tasks: 1) how to design an effective intrinsic objective in RFPT tasks, and 2) how to reduce the bias introduced by the intrinsic objective in EIM tasks. Existing IM methods suffer from static skills, limited state coverage, sample inefficiency in RFPT tasks, and suboptimality in EIM tasks. To tackle these problems, we propose \emph{Constrained Intrinsic Motivation (CIM)} for RFPT and EIM tasks, respectively: 1) CIM for RFPT maximizes the lower bound of the conditional state entropy subject to an alignment constraint on the state encoder network for efficient dynamic and diverse skill discovery and state coverage maximization; 2) CIM for EIM leverages constrained policy optimization to adaptively adjust the coefficient of the intrinsic objective to mitigate the distraction from the intrinsic objective. In various MuJoCo robotics environments, we empirically show that CIM for RFPT greatly surpasses fifteen IM methods for unsupervised skill discovery in terms of skill diversity, state coverage, and fine-tuning performance. Additionally, we showcase the effectiveness of CIM for EIM in redeeming intrinsic rewards when task rewards are exposed from the beginning. Our code is available at https://github.com/x-zheng16/CIM.
- Abstract(参考訳): 本稿では,Reward-Free Pre-Training (RFPT)タスクにおける強化学習に内在的モチベーション(IM)を利用する場合と,内在的モチベーション(EIM)タスクによる探索(EIM)タスクにおいて生じる2つの基本的な問題点について検討する。
1)RFPTタスクに有効な本質的な目的を設計する方法、及び
2)EIMタスクにおける本質的な目的によってもたらされるバイアスを軽減する方法。
既存のIM手法は、静的スキル、限られた状態カバレッジ、RFPTタスクのサンプル非効率、EIMタスクのサブ最適性に悩まされている。
これらの問題に対処するため,RFPT と EIM のタスクに対して \emph{Constrained Intrinsic Motivation (CIM) を提案する。
1)RFPT用CIMは、状態エンコーダネットワーク上のアライメント制約を受ける条件状態エントロピーの下限を最大化し、動的かつ多様なスキル発見及び状態カバレッジの最大化を行う。
2) EIMのCIMは,制約付き政策最適化を利用して本質的目標の係数を適応的に調整し,本質的目標からの逸脱を軽減する。
各種の MuJoCo ロボット環境において,RFPT の CIM が,スキル多様性,状態カバレッジ,微調整性能の面で,教師なしスキル発見のための 15 の IM 手法を大きく上回っていることを実証的に示す。
また,当初から課題報酬が暴露された場合の本質的な報酬の再評価におけるCIMの有効性を示す。
私たちのコードはhttps://github.com/x-zheng16/CIMで公開されています。
関連論文リスト
- MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Many-Objective Evolutionary Influence Maximization: Balancing Spread, Budget, Fairness, and Time [3.195234044113248]
インフルエンス・最大化(IM)問題は、情報伝達を最大限に広めることのできるグラフ内のノードの集合を見つけ出そうとする。
この問題はNPハードであることが知られており、通常は第2の目的を最適化する影響(スプレッド)を最大化して研究される。
本研究では,シードセットサイズの影響と最小化に基づいて,予算の公平性,コミュニティ,時間といったIM固有の目的関数を最適化した最初のケーススタディを提案する。
論文 参考訳(メタデータ) (2024-03-27T16:54:45Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous
Control [25.786085434943338]
内因性モチベーション(intrinsicmotive)は、外因性報酬(extrinsic rewards)の不足や不足を伴う強化学習タスクを解決するための有望な手法である。
固有のモチベーションを実装するには2つの技術的課題がある。
本稿では,制約付き内在的目標を構築するために,容易に達成可能なタスク前処理を活用するための制約付き内在的モチベーション(CIM)を提案する。
我々はCIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-28T10:23:56Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。