Fugu-MT 論文翻訳(概要): Residual Reinforcement Learning from Demonstrations

論文の概要: Residual Reinforcement Learning from Demonstrations

arxiv url: http://arxiv.org/abs/2106.08050v1
Date: Tue, 15 Jun 2021 11:16:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 15:07:05.425664
Title: Residual Reinforcement Learning from Demonstrations
Title（参考訳）: デモからの残留強化学習
Authors: Minttu Alakuijala (WILLOW, Thoth), Gabriel Dulac-Arnold, Julien Mairal (Thoth), Jean Ponce (WILLOW), Cordelia Schmid
Abstract要約: 報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。 6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
参考スコア（独自算出の注目度）: 51.56457466788513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Residual reinforcement learning (RL) has been proposed as a way to solve challenging robotic tasks by adapting control actions from a conventional feedback controller to maximize a reward signal. We extend the residual formulation to learn from visual inputs and sparse rewards using demonstrations. Learning from images, proprioceptive inputs and a sparse task-completion reward relaxes the requirement of accessing full state features, such as object and target positions. In addition, replacing the base controller with a policy learned from demonstrations removes the dependency on a hand-engineered controller in favour of a dataset of demonstrations, which can be provided by non-experts. Our experimental evaluation on simulated manipulation tasks on a 6-DoF UR5 arm and a 28-DoF dexterous hand demonstrates that residual RL from demonstrations is able to generalize to unseen environment conditions more flexibly than either behavioral cloning or RL fine-tuning, and is capable of solving high-dimensional, sparse-reward tasks out of reach for RL from scratch.
Abstract（参考訳）: 報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(RL)が提案されている。視覚入力から学習するために残留定式化を拡張し,実演を用いてスパース報酬を得る。画像、プロプレプティブ入力、スパースタスク補完報酬から学ぶことで、オブジェクトやターゲット位置などの完全な状態特徴にアクセスする必要が緩和される。さらに、ベースコントローラをデモから学んだポリシーに置き換えることで、非専門家が提供できるデモのデータセットに賛成して、手作業によるコントローラへの依存を排除できる。 6-DoF UR5 アームと28-DoF dexterous ハンドのシミュレーション操作に関する実験的評価は、デモからの残留 RL が、行動的クローニングやRL微調整よりも柔軟で、RL をスクラッチから切り離した高次元のスパース・リワードタスクを解くことができることを示す。

関連論文リスト

Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。 LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-03-21T13:20:39Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
World Models Increase Autonomy in Reinforcement Learning [6.151562278670799]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。 MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
論文参考訳（メタデータ） (2024-08-19T08:56:00Z)
Offline Reinforcement Learning with Imputed Rewards [8.856568375969848]
本稿では,報酬を付与した環境遷移のごく限られたサンプルから報酬信号を推定できるリワードモデルを提案する。その結果、元のデータセットからの報酬ラベル付き遷移の1%しか使用していないため、学習した報酬モデルは残りの99%の遷移に対して報酬を付与できることがわかった。
論文参考訳（メタデータ） (2024-07-15T15:53:13Z)
DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-30T09:15:21Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
Sequential Action-Induced Invariant Representation for Reinforcement Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文参考訳（メタデータ） (2023-09-22T05:31:55Z)
D-Shape: Demonstration-Shaped Reinforcement Learning via Goal Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文参考訳（メタデータ） (2022-10-26T02:28:32Z)
Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文参考訳（メタデータ） (2021-09-28T10:11:07Z)
Return-Based Contrastive Representation Learning for Reinforcement Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文参考訳（メタデータ） (2021-02-22T13:04:18Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。