Fugu-MT 論文翻訳(概要): Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning

論文の概要: Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2106.01404v1
Date: Wed, 2 Jun 2021 18:12:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-04 12:19:53.237834
Title: Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning
Title（参考訳）: 目標ベース強化学習のための表現学習としての変分エンパワーメント
Authors: Jongwook Choi, Archit Sharma, Honglak Lee, Sergey Levine, Shixiang Shane Gu
Abstract要約: 本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
参考スコア（独自算出の注目度）: 114.07623388322048
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to reach goal states and learning diverse skills through mutual information (MI) maximization have been proposed as principled frameworks for self-supervised reinforcement learning, allowing agents to acquire broadly applicable multitask policies with minimal reward engineering. Starting from a simple observation that the standard goal-conditioned RL (GCRL) is encapsulated by the optimization objective of variational empowerment, we discuss how GCRL and MI-based RL can be generalized into a single family of methods, which we name variational GCRL (VGCRL), interpreting variational MI maximization, or variational empowerment, as representation learning methods that acquire functionally-aware state representations for goal reaching. This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. Through principled mathematical derivations and careful experimental studies, our work lays a novel foundation from which to evaluate, analyze, and develop representation learning techniques in goal-based RL.
Abstract（参考訳）: 目標達成のための学習と相互情報(MI)の最大化による多様なスキルの学習が,自己指導型強化学習の原則として提案されている。標準目標条件付きRL(GCRL)が変分エンハンスメントの最適化目標によってカプセル化されているという単純な観察から始まり、GCRLとMIベースのRLを単一のファミリに一般化し、変分型GCRL(VGCRL)、変分MI最大化、変分エンハンスメントをゴールゴール達成のための機能的に認識された状態表現を取得する表現学習手法として解釈する。 This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. 原理的数学的導出と注意深い実験研究を通じて,本研究は,目標ベースrlにおける表現学習手法の評価,解析,開発のための新しい基礎を築いている。

関連論文リスト

Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.460540027658173]
大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。多様性を考慮したポリシー最適化手法を提案する。本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文参考訳（メタデータ） (2025-05-29T13:27:44Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文参考訳（メタデータ） (2024-02-04T09:58:42Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Generalizing Goal-Conditioned Reinforcement Learning with Variational Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。 2つのステップを交互に行う理論性能保証フレームワークを提案する。我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文参考訳（メタデータ） (2022-07-19T05:31:16Z)
Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文参考訳（メタデータ） (2022-05-29T04:31:29Z)
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。 DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文参考訳（メタデータ） (2022-02-28T09:05:14Z)
Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文参考訳（メタデータ） (2021-08-08T19:32:44Z)
Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。 RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文参考訳（メタデータ） (2020-02-07T09:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。