Fugu-MT 論文翻訳(概要): Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning

論文の概要: Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.03029v2
Date: Wed, 7 Aug 2024 05:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 12:15:09.183374
Title: Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning
Title（参考訳）: 強化学習のための高能率自己適応型逆方向整形
Authors: Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong,
Abstract要約: Reward Shapingは、強化学習におけるスパース報酬の課題に対処する。歴史的経験から得られた成功率を形づくりの報酬に組み込む新しい手法を提案する。
参考スコア（独自算出の注目度）: 5.242869847419834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward shaping addresses the challenge of sparse rewards in reinforcement learning by constructing denser and more informative reward signals. To achieve self-adaptive and highly efficient reward shaping, we propose a novel method that incorporates success rates derived from historical experiences into shaped rewards. Our approach utilizes success rates sampled from Beta distributions, which dynamically evolve from uncertain to reliable values as more data is collected. Initially, the self-adaptive success rates exhibit more randomness to encourage exploration. Over time, they become more certain to enhance exploitation, thus achieving a better balance between exploration and exploitation. We employ Kernel Density Estimation (KDE) combined with Random Fourier Features (RFF) to derive the Beta distributions, resulting in a computationally efficient implementation in high-dimensional continuous state spaces. This method provides a non-parametric and learning-free approach. The proposed method is evaluated on a wide range of continuous control tasks with sparse and delayed rewards, demonstrating significant improvements in sample efficiency and convergence stability compared to relevant baselines.
Abstract（参考訳）: Reward Shapingは、より高密度でより情報的な報酬信号を構築することで、強化学習におけるスパース報酬の課題に対処する。自己適応的かつ高効率な報酬形成を実現するために,歴史的経験から得られた成功率を形状報酬に組み込む手法を提案する。提案手法は, ベータ分布から採取した成功率を利用して, より多くのデータが収集されるにつれて, 不確実な値から信頼性のある値へと動的に進化する。最初は、自己適応的な成功率は、探索を促進するためによりランダム性を示す。時間が経つにつれて、彼らは搾取を強化し、探検と搾取のバランスを良くするようになる。我々はKDE(カーネル密度推定)とRFF(ランダムフーリエ特徴量)を組み合わせてベータ分布を導出し,高次元連続状態空間における計算効率の良い実装を実現する。この方法は、非パラメトリックで学習自由なアプローチを提供する。提案手法は,スパースおよび遅延報酬を用いた多種多様な連続制御タスクにおいて評価され,関連するベースラインと比較して試料効率および収束安定性が著しく向上したことを示す。

関連論文リスト

Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning [0.0]
ACWIは適応型固有報酬スケーリングフレームワークである。それは、スパース報酬強化学習における探索を改善するために、本質的な報酬と外生的な報酬のバランスをとる。我々は,MiniGrid のスパース報酬環境における ACWI の評価を行った。
論文参考訳（メタデータ） (2026-02-27T15:16:53Z)
Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文参考訳（メタデータ） (2026-02-04T08:59:57Z)
Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering [28.35101062722637]
グループ相対政策最適化(GRPO)は大規模言語モデル(LLM)の推論性能を大幅に向上させる我々は、潜在空間幾何学から直接本質的な報酬を導出するフレームワークであるLatent-GRPOを提案する。本手法は,ベースラインに比べて2倍以上のトレーニング高速化を実現しつつ,モデル性能を維持していることを示す。
論文参考訳（メタデータ） (2026-01-13T10:55:08Z)
HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文参考訳（メタデータ） (2025-10-10T13:42:03Z)
G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。 G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-10-02T12:57:12Z)
Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文参考訳（メタデータ） (2025-07-13T05:37:33Z)
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文参考訳（メタデータ） (2025-02-03T12:32:50Z)
Deep Reinforcement Learning with Hybrid Intrinsic Reward Model [50.53705050673944]
内在的な報酬形成は、ハード探索とスパース・リワードの環境を解決するための一般的なアプローチとして現れている。故意融合戦略を通じてハイブリッドな内因性報酬を作成するためのフレームワークであるHIRE(Hybrid Intrinsic Reward)を紹介する。
論文参考訳（メタデータ） (2025-01-22T04:22:13Z)
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文参考訳（メタデータ） (2024-03-31T11:39:11Z)
Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-09T03:55:09Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文参考訳（メタデータ） (2022-05-20T20:30:57Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)
f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文参考訳（メタデータ） (2020-11-09T19:37:48Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は直立位置での力学系の教師なし安定化を可能にする本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文参考訳（メタデータ） (2020-07-14T21:10:16Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。