Fugu-MT 論文翻訳(概要): Chain of Uncertain Rewards with Large Language Models for Reinforcement Learning

論文の概要: Chain of Uncertain Rewards with Large Language Models for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.13504v1
Date: Wed, 15 Apr 2026 05:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.400238
Title: Chain of Uncertain Rewards with Large Language Models for Reinforcement Learning
Title（参考訳）: 強化学習のための大規模言語モデルを用いた不確かさの連鎖
Authors: Shentong Mo,
Abstract要約: Chain of Uncertain Rewards (CoUR)は、大きな言語モデル(LLM)を統合して報酬関数の設計と評価を効率化する新しいフレームワークである。我々は、CoURがより良い性能を実現し、報酬評価のコストを大幅に削減できることを示します。
参考スコア（独自算出の注目度）: 52.48243762705385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Designing effective reward functions is a cornerstone of reinforcement learning (RL), yet it remains a challenging and labor-intensive process due to the inefficiencies and inconsistencies inherent in traditional methods. Existing methods often rely on extensive manual design and evaluation steps, which are prone to redundancy and overlook local uncertainties at intermediate decision points. To address these challenges, we propose the Chain of Uncertain Rewards (CoUR), a novel framework that integrates large language models (LLMs) to streamline reward function design and evaluation in RL environments. Specifically, our CoUR introduces code uncertainty quantification with a similarity selection mechanism that combines textual and semantic analyses to identify and reuse the most relevant reward function components. By reducing redundant evaluations and leveraging Bayesian optimization on decoupled reward terms, CoUR enables a more efficient and robust search for optimal reward feedback. We comprehensively evaluate CoUR across nine original environments from IsaacGym and all 20 tasks from the Bidexterous Manipulation benchmark. The experimental results demonstrate that CoUR not only achieves better performance but also significantly lowers the cost of reward evaluations.
Abstract（参考訳）: 効果的な報酬関数を設計することは、強化学習(RL)の基盤であるが、従来の方法に固有の非効率性と矛盾のため、依然として困難で労働集約的なプロセスである。既存の手法は、しばしば広範囲な手動設計と評価のステップに依存しており、冗長性や中間決定点における局所的な不確実性を見落としやすい。これらの課題に対処するために,大規模言語モデル(LLM)を統合し,RL環境における報酬関数の設計と評価を効率化する新しいフレームワークであるCoUR(Chain of Uncertain Rewards)を提案する。具体的には,コード不確実性の定量化と類似度選択機構を導入し,テキスト解析と意味解析を組み合わせて,最も関連性の高い報酬関数成分を同定・再利用する。冗長な評価を減らし、疎結合な報酬項に対するベイズ最適化を活用することで、CoURは最適報酬フィードバックのより効率的で堅牢な探索を可能にした。我々は、IsaacGym氏による9つの元の環境と、Bidexterous Manipulationベンチマークによる20のタスクを総合的に評価した。実験の結果,CoURは性能向上だけでなく,報酬評価のコストを大幅に削減できることがわかった。

関連論文リスト

Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文参考訳（メタデータ） (2026-02-01T05:44:09Z)
Leveraging LLMs for reward function design in reinforcement learning control tasks [0.0]
本稿では,LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization)を紹介する。このフレームワークは、システムやタスク目標のテキスト記述から報酬関数候補を生成し、実行し、評価する。実験の結果,LEARN-Optは最先端手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-11-24T17:55:46Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文参考訳（メタデータ） (2025-07-11T12:37:20Z)
Uncertainty-aware Reward Design Process [6.013578016233855]
報奨関数の設計と評価を効率化するために,大規模言語モデルを統合する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。 URDPは自己整合性分析に基づいて不確実性を定量化し,非効率な報酬成分のシミュレーション無し同定を可能にする。 3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。
論文参考訳（メタデータ） (2025-07-03T03:09:17Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。