Fugu-MT 論文翻訳(概要): Uncertainty-aware Reward Design Process

論文の概要: Uncertainty-aware Reward Design Process

arxiv url: http://arxiv.org/abs/2507.02256v1
Date: Thu, 03 Jul 2025 03:09:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-04 15:37:15.483335
Title: Uncertainty-aware Reward Design Process
Title（参考訳）: 不確実性を考慮したリワード設計プロセス
Authors: Yang Yang, Xiaolu Zhou, Bosong Ding, Miao Xin,
Abstract要約: 報奨関数の設計と評価を効率化するために,大規模言語モデルを統合する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。 URDPは自己整合性分析に基づいて不確実性を定量化し,非効率な報酬成分のシミュレーション無し同定を可能にする。 3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。
参考スコア（独自算出の注目度）: 6.013578016233855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Designing effective reward functions is a cornerstone of reinforcement learning (RL), yet it remains a challenging process due to the inefficiencies and inconsistencies inherent in conventional reward engineering methodologies. Recent advances have explored leveraging large language models (LLMs) to automate reward function design. However, their suboptimal performance in numerical optimization often yields unsatisfactory reward quality, while the evolutionary search paradigm demonstrates inefficient utilization of simulation resources, resulting in prohibitively lengthy design cycles with disproportionate computational overhead. To address these challenges, we propose the Uncertainty-aware Reward Design Process (URDP), a novel framework that integrates large language models to streamline reward function design and evaluation in RL environments. URDP quantifies candidate reward function uncertainty based on self-consistency analysis, enabling simulation-free identification of ineffective reward components while discovering novel reward components. Furthermore, we introduce uncertainty-aware Bayesian optimization (UABO), which incorporates uncertainty estimation to significantly enhance hyperparameter configuration efficiency. Finally, we construct a bi-level optimization architecture by decoupling the reward component optimization and the hyperparameter tuning. URDP orchestrates synergistic collaboration between the reward logic reasoning of the LLMs and the numerical optimization strengths of the Bayesian Optimization. We conduct a comprehensive evaluation of URDP across 35 diverse tasks spanning three benchmark environments. Our experimental results demonstrate that URDP not only generates higher-quality reward functions but also achieves significant improvements in the efficiency of automated reward design compared to existing approaches.
Abstract（参考訳）: 効果的な報酬関数を設計することは、強化学習(RL)の基盤であるが、従来の報酬工学手法に固有の非効率性と矛盾のため、依然として困難なプロセスである。近年,報奨関数設計を自動化するため,大規模言語モデル(LLM)の活用が検討されている。しかし、数値最適化における最適化性能は、しばしば不満足な報酬の質をもたらすが、進化的探索パラダイムは、シミュレーション資源の非効率な利用を示し、計算オーバーヘッドが不均等であるような、極めて長い設計サイクルをもたらす。これらの課題に対処するために,大規模な言語モデルを統合し,RL環境における報酬関数の設計と評価を効率化する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。 URDPは、自己整合性分析に基づいて、候補報酬関数の不確実性を定量化し、新しい報酬成分を発見しながら、非有効報酬成分のシミュレーション無し同定を可能にする。さらに,不確実性を考慮したベイズ最適化(UABO)を導入し,パラメータ設定効率を大幅に向上させる。最後に、報酬成分最適化とハイパーパラメータチューニングを分離して二段階最適化アーキテクチャを構築する。 URDPは、LLMの報酬論理推論とベイズ最適化の数値最適化強度の相乗的協調をオーケストレーションする。 3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。実験の結果, URDPは高品質な報酬関数を生成するだけでなく, 自動報酬設計の効率性も向上することがわかった。

関連論文リスト

COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T07:05:18Z)
CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design [3.549422886703227]
COREはシミュレーション誘導DSEのための制約対応一段階強化学習法である。ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化する。
論文参考訳（メタデータ） (2025-06-04T01:08:34Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文参考訳（メタデータ） (2024-03-08T09:20:12Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Robust Topology Optimization Using Multi-Fidelity Variational Autoencoders [1.0124625066746595]
強靭なトポロジー最適化(RTO)問題は、最高の平均性能を持つ設計を特定する。計算効率を向上するニューラルネットワーク手法を提案する。本手法の数値解析は,Lブラケット構造のロバスト設計における単一点負荷と複数点負荷について述べる。
論文参考訳（メタデータ） (2021-07-19T20:40:51Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。