Fugu-MT 論文翻訳(概要): PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling

論文の概要: PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling

arxiv url: http://arxiv.org/abs/2404.13423v1
Date: Sat, 20 Apr 2024 17:06:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 19:00:27.541950
Title: PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling
Title（参考訳）: PIPER:Hindsight Relabelingによるプリミティブインフォームド推論に基づく階層的強化学習
Authors: Utsav Singh, Wesley A. Suttle, Brian M. Sadler, Vinay P. Namboodiri, Amrit Singh Bedi,
Abstract要約: PIPER: Hindsight Relabeling を用いたPrimitive-Informed Preferenceに基づく階層型強化学習について紹介する。我々の緩和に基づくアプローチは、既存の階層的アプローチに共通する非定常性を緩和することができる。実用不可能なサブゴール予測の防止と退化解の回避のために,プリミティブインフォームド正規化を提案する。
参考スコア（独自算出の注目度）: 36.481053480535515
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we introduce PIPER: Primitive-Informed Preference-based Hierarchical reinforcement learning via Hindsight Relabeling, a novel approach that leverages preference-based learning to learn a reward model, and subsequently uses this reward model to relabel higher-level replay buffers. Since this reward is unaffected by lower primitive behavior, our relabeling-based approach is able to mitigate non-stationarity, which is common in existing hierarchical approaches, and demonstrates impressive performance across a range of challenging sparse-reward tasks. Since obtaining human feedback is typically impractical, we propose to replace the human-in-the-loop approach with our primitive-in-the-loop approach, which generates feedback using sparse rewards provided by the environment. Moreover, in order to prevent infeasible subgoal prediction and avoid degenerate solutions, we propose primitive-informed regularization that conditions higher-level policies to generate feasible subgoals for lower-level policies. We perform extensive experiments to show that PIPER mitigates non-stationarity in hierarchical reinforcement learning and achieves greater than 50$\%$ success rates in challenging, sparse-reward robotic environments, where most other baselines fail to achieve any significant progress.
Abstract（参考訳）: 本研究では,プライオリティベース学習を応用して報酬モデルを学習する手法であるHindsight Relabelingを用いたPrimitive-Informed Preference-based Hierarchical reinforcement Learning(PIPER)を紹介する。この報酬は、プリミティブな振る舞いの影響を受けないため、既存の階層的アプローチに共通する非定常性を緩和し、様々な難解なスパース・リワードタスクにおける印象的なパフォーマンスを示すことができる。人間のフィードバックを得るのは通常実用的ではないため、環境から得られる疎い報酬を用いてフィードバックを生成するプリミティブ・イン・ザ・ループ・アプローチに置き換えることを提案する。さらに,実現不可能なサブゴール予測を防止し,解の退化を回避するために,より高レベルなポリシーを条件として,低レベルなポリシーのための実行可能なサブゴールを生成するプリミティブインフォームド正規化を提案する。我々は、PIPERが階層的強化学習において非定常性を緩和し、困難でスパース・リワードなロボット環境において50$\%以上の成功率を達成することを示すための広範な実験を行った。

関連論文リスト

Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文参考訳（メタデータ） (2025-10-21T20:08:32Z)
From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation [11.440362964307958]
生成モデルは現代の機械学習のバックボーンを形成し、テキスト、ビジョン、マルチモーダルアプリケーションにおける最先端システムを支える。これらのアプローチは明示的な報酬信号に依存しており、実際には利用できないことが多く、高品質なデータセットのみがアクセス可能である場合に生成モデルをどのように整合させるかという問題を解き放つ。そこでは、報酬関数を外部問題の最適化変数として扱い、政策勾配の目的が内部レベルを定義する。
論文参考訳（メタデータ） (2025-10-08T23:45:37Z)
PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文参考訳（メタデータ） (2025-06-16T17:51:33Z)
Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文参考訳（メタデータ） (2025-05-17T06:09:13Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。 DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-22T19:52:08Z)
Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2024-07-03T13:44:20Z)
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning [36.50275602760051]
DIPPER: 原始許容階層型強化学習の高速化のための直接選好最適化について紹介する。直接選好最適化を利用する効率的な階層的アプローチであり、より高度な政策を学ぶために、そして低レベルの政策を学ぶために強化学習を行う。標準的な嗜好に基づくアプローチではなく、直接選好最適化を使用することで、計算効率の向上を享受している。
論文参考訳（メタデータ） (2024-06-16T10:49:41Z)
A State Augmentation based approach to Reinforcement Learning from Human Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-17T07:10:50Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Feature Diversity Learning with Sample Dropout for Unsupervised Domain Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2022-01-25T10:10:48Z)
State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文参考訳（メタデータ） (2021-02-23T21:07:35Z)
Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文参考訳（メタデータ） (2019-11-20T03:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。