Fugu-MT 論文翻訳(概要): RoMo-HER: Robust Model-based Hindsight Experience Replay

論文の概要: RoMo-HER: Robust Model-based Hindsight Experience Replay

arxiv url: http://arxiv.org/abs/2306.16061v1
Date: Wed, 28 Jun 2023 09:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 14:45:05.549342
Title: RoMo-HER: Robust Model-based Hindsight Experience Replay
Title（参考訳）: RoMo-HER:ロバストなモデルベースの隠れ体験リプレイ
Authors: Yuming Huang and Bin Ren
Abstract要約: 本稿では,ロボット操作環境におけるサンプル効率を高めるために,ロバストモデルに基づくHyndsight Experience Replay (RoMo-HER)を提案する。 RoMo-HERは、ダイナミックスモデルと、Foresight relabeling (FR)と呼ばれる、特定の戦略で予測開始状態を選択し、開始状態の将来の軌跡を予測し、ゴールをリラベルする新しいゴールレバーリング技術に基づいて構築されている。実験の結果,複数のロボット操作環境において,RoMo-HERはHERやモデルベースHMMよりも高効率であることがわかった。
参考スコア（独自算出の注目度）: 13.889082559371401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse rewards are one of the factors leading to low sample efficiency in multi-goal reinforcement learning (RL). Based on Hindsight Experience Replay (HER), model-based relabeling methods have been proposed to relabel goals using virtual trajectories obtained by interacting with the trained model, which can effectively enhance the sample efficiency in accurately modelable sparse-reward environments. However, they are ineffective in robot manipulation environment. In our paper, we design a robust framework called Robust Model-based Hindsight Experience Replay (RoMo-HER) which can effectively utilize the dynamical model in robot manipulation environments to enhance the sample efficiency. RoMo-HER is built upon a dynamics model and a novel goal relabeling technique called Foresight relabeling (FR), which selects the prediction starting state with a specific strategy, predicts the future trajectory of the starting state, and then relabels the goal using the dynamics model and the latest policy to train the agent. Experimental results show that RoMo-HER has higher sample efficiency than HER and Model-based Hindsight Experience Replay in several simulated robot manipulation environments. Furthermore, we integrate RoMo-HER and Relay Hindsight Experience Replay (RHER), which currently exhibits the highest sampling efficiency in most benchmark environments, resulting in a novel approach called Robust Model-based Relay Hindsight Experience Replay (RoMo-RHER). Our experimental results demonstrate that RoMo-RHER achieves higher sample efficiency over RHER, outperforming RHER by 25% and 26% in FetchPush-v1 and FetchPickandPlace-v1, respectively.
Abstract（参考訳）: スパース報酬はマルチゴール強化学習(RL)におけるサンプル効率の低下につながる要因の1つである。 Hindsight Experience Replay (HER)に基づいて、トレーニングされたモデルと相互作用して得られた仮想軌跡を用いて、モデルに基づくラベリング手法が目標を緩和する手法が提案されている。しかし、ロボット操作環境では効果がない。本稿では,ロボット操作環境における動的モデルを効果的に活用し,サンプル効率を向上させるロバストモデルに基づくHendsight Experience Replay (RoMo-HER) と呼ばれる頑健なフレームワークを設計する。 RoMo-HERは、ダイナミックスモデルと、Foresight relabeling(FR)と呼ばれる、特定の戦略で予測開始状態を選択し、スタート状態の将来の軌跡を予測し、ダイナミックスモデルとエージェントをトレーニングするための最新のポリシーを使用してゴールを再ラベルする新しいゴールレバーリング技術に基づいて構築されている。実験の結果,複数のロボット操作環境において,RoMo-HERはHERやモデルベースHMMよりも高効率であることがわかった。さらに,RoMo-HER と Relay Hindsight Experience Replay (RHER) を統合することで,ロバストモデルに基づく Relay Hindsight Experience Replay (RoMo-RHER) と呼ばれる新しい手法が提案される。 RHERはFetchPush-v1とFetchPickandPlace-v1で25%, 26%, RHERでは25%, RHERでは26%, RHERよりも高い試料効率が得られた。

関連論文リスト

LoRA-Loop: Closing the Synthetic Replay Cycle for Continual VLM Learning [15.385906975878628]
視覚言語モデルに対する継続的な学習は、合成再生によって顕著な性能を達成した。しかし、現実世界のダウンストリームアプリケーションは、しばしば、ジェネレータによってキャプチャされないドメイン固有のニュアンスときめ細かいセマンティックスを示す。フリーズされた安定拡散モデルにタスク固有の低ランクアダプタを注入するLoRA強化合成再生フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T23:08:29Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文参考訳（メタデータ） (2024-03-31T11:39:11Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。 GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文参考訳（メタデータ） (2022-08-17T08:04:41Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。 MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文参考訳（メタデータ） (2021-07-01T08:52:45Z)
RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文参考訳（メタデータ） (2021-06-08T03:30:50Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。