Fugu-MT 論文翻訳(概要): Hindsight Expectation Maximization for Goal-conditioned Reinforcement Learning

論文の概要: Hindsight Expectation Maximization for Goal-conditioned Reinforcement Learning

arxiv url: http://arxiv.org/abs/2006.07549v2
Date: Fri, 26 Feb 2021 15:37:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 20:32:01.055127
Title: Hindsight Expectation Maximization for Goal-conditioned Reinforcement Learning
Title（参考訳）: ゴール条件強化学習における隠れ期待の最大化
Authors: Yunhao Tang, Alp Kucukelbir
Abstract要約: 本稿では,目標条件付きRLのためのグラフィカルモデルフレームワークを提案する。 Eステップは、HERのような「後見の学習」技法が、極めてスパースなゴール条件の報酬を扱う方法の自然な解釈を提供する。 Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。
参考スコア（独自算出の注目度）: 26.631740480100724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a graphical model framework for goal-conditioned RL, with an EM algorithm that operates on the lower bound of the RL objective. The E-step provides a natural interpretation of how 'learning in hindsight' techniques, such as HER, to handle extremely sparse goal-conditioned rewards. The M-step reduces policy optimization to supervised learning updates, which greatly stabilizes end-to-end training on high-dimensional inputs such as images. We show that the combined algorithm, hEM significantly outperforms model-free baselines on a wide range of goal-conditioned benchmarks with sparse rewards.
Abstract（参考訳）: 本稿では、目標条件付きrlのためのグラフィカルモデルフレームワークを提案し、rl目標の下限で動作するemアルゴリズムを提案する。 e-stepは、彼女のような 'learning in hindsight' テクニックが極めて低い目標条件の報酬を扱う方法の自然な解釈を提供する。 Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。組み合わせアルゴリズムhEMは, 目標条件付きベンチマークにおいて, モデルフリーのベースラインを著しく上回っていることを示す。

関連論文リスト

Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。 GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文参考訳（メタデータ） (2025-04-24T01:31:05Z)
MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。 GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文参考訳（メタデータ） (2024-12-16T03:25:28Z)
Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文参考訳（メタデータ） (2024-10-15T04:35:56Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts [33.58165081033569]
Sparse MetA-Tuning (SMAT) はスパース・ミックス・オブ・エキスパート・アプローチにインスパイアされた手法である。 SMATはOOD感度を克服し、ビジョンファウンデーションモデルの転送能力を高めることを約束する。
論文参考訳（メタデータ） (2024-03-13T12:46:03Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。 VaGraMは価値認識モデル学習の新しい手法である。
論文参考訳（メタデータ） (2022-04-04T13:28:31Z)
Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文参考訳（メタデータ） (2021-06-26T20:01:28Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。