論文の概要: Self-correcting Reward Shaping via Language Models for Reinforcement Learning Agents in Games
- arxiv url: http://arxiv.org/abs/2506.23626v1
- Date: Mon, 30 Jun 2025 08:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.98052
- Title: Self-correcting Reward Shaping via Language Models for Reinforcement Learning Agents in Games
- Title(参考訳): ゲームにおける強化学習エージェントのための言語モデルによる自己補正リワード整形
- Authors: António Afonso, Iolanda Leite, Alessandro Sestini, Florian Fuchs, Konrad Tollmar, Linus Gisslén,
- Abstract要約: 本稿では,RLエージェントの報酬関数重みを微調整する自動手法を提案する。
言語モデル(LM)は、ユーザ定義言語に基づく行動目標に基づいて、イテレーション毎に更新された重み付けを提案する。
レースタスクにおける我々のアプローチを評価し、イテレーション間でエージェントのパフォーマンスを継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 39.422757399203334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) in games has gained significant momentum in recent years, enabling the creation of different agent behaviors that can transform a player's gaming experience. However, deploying RL agents in production environments presents two key challenges: (1) designing an effective reward function typically requires an RL expert, and (2) when a game's content or mechanics are modified, previously tuned reward weights may no longer be optimal. Towards the latter challenge, we propose an automated approach for iteratively fine-tuning an RL agent's reward function weights, based on a user-defined language based behavioral goal. A Language Model (LM) proposes updated weights at each iteration based on this target behavior and a summary of performance statistics from prior training rounds. This closed-loop process allows the LM to self-correct and refine its output over time, producing increasingly aligned behavior without the need for manual reward engineering. We evaluate our approach in a racing task and show that it consistently improves agent performance across iterations. The LM-guided agents show a significant increase in performance from $9\%$ to $74\%$ success rate in just one iteration. We compare our LM-guided tuning against a human expert's manual weight design in the racing task: by the final iteration, the LM-tuned agent achieved an $80\%$ success rate, and completed laps in an average of $855$ time steps, a competitive performance against the expert-tuned agent's peak $94\%$ success, and $850$ time steps.
- Abstract(参考訳): 近年,ゲームにおける強化学習 (Reinforcement Learning, RL) が大きな勢いを増し, プレイヤーのゲーム体験を変える様々なエージェントの動作が創られるようになった。
しかし, 実運用環境におけるRLエージェントの展開は, 1) 有効報酬関数の設計には通常RL専門家が必要であり, (2) ゲームの内容やメカニックが修正された場合, 従来調整されていた報酬重み付けはもはや最適ではない。
後者の課題に向けて、ユーザ定義言語に基づく行動目標に基づいて、RLエージェントの報酬関数重み付けを反復的に微調整する自動化アプローチを提案する。
言語モデル(LM)は、この目標行動と事前のトレーニングラウンドのパフォーマンス統計の要約に基づいて、各イテレーションの重みを更新する。
このクローズドループプロセスにより、LMは時間とともに自己修正し、出力を洗練し、手動の報酬工学を必要とせずに、より整合した振る舞いを生み出すことができる。
レースタスクにおける我々のアプローチを評価し、イテレーション間でエージェントのパフォーマンスを継続的に改善することを示す。
LM誘導エージェントは、わずか1回のイテレーションで9.5%から74.%までの大幅なパフォーマンス向上を示した。
最終イテレーションでは、LMチューニングされたエージェントは80\%$成功率を達成し、平均855ドルのタイムステップでラップを完了し、専門家チューニングされたエージェントが最高9,4\%のタイムステップと8,50ドルのタイムステップを達成しました。
関連論文リスト
- SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。
驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。
Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文 参考訳(メタデータ) (2024-10-19T13:53:50Z) - ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。
法律の様式における代理人軌道の
AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文 参考訳(メタデータ) (2024-03-21T17:43:44Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。