論文の概要: Uncertainty-aware Reward Design Process
- arxiv url: http://arxiv.org/abs/2507.02256v1
- Date: Thu, 03 Jul 2025 03:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.483335
- Title: Uncertainty-aware Reward Design Process
- Title(参考訳): 不確実性を考慮したリワード設計プロセス
- Authors: Yang Yang, Xiaolu Zhou, Bosong Ding, Miao Xin,
- Abstract要約: 報奨関数の設計と評価を効率化するために,大規模言語モデルを統合する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。
URDPは自己整合性分析に基づいて不確実性を定量化し,非効率な報酬成分のシミュレーション無し同定を可能にする。
3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。
- 参考スコア(独自算出の注目度): 6.013578016233855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing effective reward functions is a cornerstone of reinforcement learning (RL), yet it remains a challenging process due to the inefficiencies and inconsistencies inherent in conventional reward engineering methodologies. Recent advances have explored leveraging large language models (LLMs) to automate reward function design. However, their suboptimal performance in numerical optimization often yields unsatisfactory reward quality, while the evolutionary search paradigm demonstrates inefficient utilization of simulation resources, resulting in prohibitively lengthy design cycles with disproportionate computational overhead. To address these challenges, we propose the Uncertainty-aware Reward Design Process (URDP), a novel framework that integrates large language models to streamline reward function design and evaluation in RL environments. URDP quantifies candidate reward function uncertainty based on self-consistency analysis, enabling simulation-free identification of ineffective reward components while discovering novel reward components. Furthermore, we introduce uncertainty-aware Bayesian optimization (UABO), which incorporates uncertainty estimation to significantly enhance hyperparameter configuration efficiency. Finally, we construct a bi-level optimization architecture by decoupling the reward component optimization and the hyperparameter tuning. URDP orchestrates synergistic collaboration between the reward logic reasoning of the LLMs and the numerical optimization strengths of the Bayesian Optimization. We conduct a comprehensive evaluation of URDP across 35 diverse tasks spanning three benchmark environments. Our experimental results demonstrate that URDP not only generates higher-quality reward functions but also achieves significant improvements in the efficiency of automated reward design compared to existing approaches.
- Abstract(参考訳): 効果的な報酬関数を設計することは、強化学習(RL)の基盤であるが、従来の報酬工学手法に固有の非効率性と矛盾のため、依然として困難なプロセスである。
近年,報奨関数設計を自動化するため,大規模言語モデル(LLM)の活用が検討されている。
しかし、数値最適化における最適化性能は、しばしば不満足な報酬の質をもたらすが、進化的探索パラダイムは、シミュレーション資源の非効率な利用を示し、計算オーバーヘッドが不均等であるような、極めて長い設計サイクルをもたらす。
これらの課題に対処するために,大規模な言語モデルを統合し,RL環境における報酬関数の設計と評価を効率化する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。
URDPは、自己整合性分析に基づいて、候補報酬関数の不確実性を定量化し、新しい報酬成分を発見しながら、非有効報酬成分のシミュレーション無し同定を可能にする。
さらに,不確実性を考慮したベイズ最適化(UABO)を導入し,パラメータ設定効率を大幅に向上させる。
最後に、報酬成分最適化とハイパーパラメータチューニングを分離して二段階最適化アーキテクチャを構築する。
URDPは、LLMの報酬論理推論とベイズ最適化の数値最適化強度の相乗的協調をオーケストレーションする。
3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。
実験の結果, URDPは高品質な報酬関数を生成するだけでなく, 自動報酬設計の効率性も向上することがわかった。
関連論文リスト
- CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design [3.549422886703227]
COREはシミュレーション誘導DSEのための制約対応一段階強化学習法である。
ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化する。
論文 参考訳(メタデータ) (2025-06-04T01:08:34Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。