Fugu-MT 論文翻訳(概要): Leveraging LLMs for reward function design in reinforcement learning control tasks

論文の概要: Leveraging LLMs for reward function design in reinforcement learning control tasks

arxiv url: http://arxiv.org/abs/2511.19355v1
Date: Mon, 24 Nov 2025 17:55:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.354145
Title: Leveraging LLMs for reward function design in reinforcement learning control tasks
Title（参考訳）: 強化学習制御タスクにおける報酬関数設計のためのLLMの活用
Authors: Franklin Cardenoso, Wouter Caarls,
Abstract要約: 本稿では,LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization)を紹介する。このフレームワークは、システムやタスク目標のテキスト記述から報酬関数候補を生成し、実行し、評価する。実験の結果,LEARN-Optは最先端手法に匹敵する性能を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The challenge of designing effective reward functions in reinforcement learning (RL) represents a significant bottleneck, often requiring extensive human expertise and being time-consuming. Previous work and recent advancements in large language models (LLMs) have demonstrated their potential for automating the generation of reward functions. However, existing methodologies often require preliminary evaluation metrics, human-engineered feedback for the refinement process, or the use of environmental source code as context. To address these limitations, this paper introduces LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization). This LLM-based, fully autonomous, and model-agnostic framework eliminates the need for preliminary metrics and environmental source code as context to generate, execute, and evaluate reward function candidates from textual descriptions of systems and task objectives. LEARN-Opt's main contribution lies in its ability to autonomously derive performance metrics directly from the system description and the task objective, enabling unsupervised evaluation and selection of reward functions. Our experiments indicate that LEARN-Opt achieves performance comparable to or better to that of state-of-the-art methods, such as EUREKA, while requiring less prior knowledge. We find that automated reward design is a high-variance problem, where the average-case candidate fails, requiring a multi-run approach to find the best candidates. Finally, we show that LEARN-Opt can unlock the potential of low-cost LLMs to find high-performing candidates that are comparable to, or even better than, those of larger models. This demonstrated performance affirms its potential to generate high-quality reward functions without requiring any preliminary human-defined metrics, thereby reducing engineering overhead and enhancing generalizability.
Abstract（参考訳）: 強化学習(RL)における効果的な報酬関数を設計することの課題は、しばしば人間の専門知識と時間を要する重要なボトルネックである。大規模言語モデル(LLM)のこれまでの成果と最近の進歩は、報酬関数の生成を自動化する可能性を示している。しかし、既存の手法では、事前評価メトリクス、改良プロセスのための人間工学的なフィードバック、環境ソースコードを文脈として使う必要がある。これらの制約に対処するために、LEARN-Opt (LLMベースの評価器とReward functioN Optimizationのためのアナライザー)を提案する。 LLMベースの完全に自律的でモデルに依存しないこのフレームワークは、システムやタスクの目的のテキスト記述から報酬関数候補を生成し、実行し、評価するための文脈として、予備的なメトリクスと環境ソースコードを不要にする。 LEARN-Optの主な貢献は、システム記述とタスク目標から直接パフォーマンス指標を自律的に導き、教師なし評価と報酬関数の選択を可能にすることである。実験の結果,LEARN-OptはEUREKAのような最先端の手法に匹敵する性能を達成でき,事前知識は少ないことがわかった。自動報酬設計は、平均ケース候補が失敗する高分散問題であり、最適な候補を見つけるためには、マルチランアプローチが必要である。最後に、LEARN-Opt が低コスト LLM の可能性を解き明かし、より大きなモデルに匹敵する高い性能の候補を見つけることができることを示す。この結果、人間の定義した予備的な指標を必要とせずに高品質な報酬関数を生成する可能性を実証し、工学的オーバーヘッドを減らし、一般化可能性を高めることができた。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models [52.538586230181814]
近年のLarge Language Models (LLMs) を用いた組合せ最適化問題の解法に関する研究プロンプトにおけるタスク固有の知識の欠如は、LLMが不特定な探索方向を提供し、良好なパフォーマンスの導出を妨げることがしばしばある。本稿では,Herculesアルゴリズムを提案する。このアルゴリズムは設計したコア抽象化プロンプティング(CAP)法を利用して,コアコンポーネントをエリートHGから抽象化し,プリミティブに事前知識として組み込む。
論文参考訳（メタデータ） (2025-05-19T02:20:46Z)
ICPL: Few-shot In-context Preference Learning via LLMs [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文参考訳（メタデータ） (2024-10-22T17:53:34Z)
Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文参考訳（メタデータ） (2024-10-22T15:59:58Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL [14.091146805312636]
信用割当問題は強化学習(RL)における中心的な課題であるクレジット・アサインメント・ウィズ・ランゲージ・モデル(CALM)は、報酬形成とオプション発見を通じてクレジット・アサインメントを自動化する新しいアプローチである。予備的な結果は、大規模言語モデルの知識が、RLにおける信用代入の有望な先行であることを示している。
論文参考訳（メタデータ） (2024-09-19T14:08:09Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。