Fugu-MT 論文翻訳(概要): Self-correcting Reward Shaping via Language Models for Reinforcement Learning Agents in Games

論文の概要: Self-correcting Reward Shaping via Language Models for Reinforcement Learning Agents in Games

arxiv url: http://arxiv.org/abs/2506.23626v1
Date: Mon, 30 Jun 2025 08:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.98052
Title: Self-correcting Reward Shaping via Language Models for Reinforcement Learning Agents in Games
Title（参考訳）: ゲームにおける強化学習エージェントのための言語モデルによる自己補正リワード整形
Authors: António Afonso, Iolanda Leite, Alessandro Sestini, Florian Fuchs, Konrad Tollmar, Linus Gisslén,
Abstract要約: 本稿では,RLエージェントの報酬関数重みを微調整する自動手法を提案する。言語モデル(LM)は、ユーザ定義言語に基づく行動目標に基づいて、イテレーション毎に更新された重み付けを提案する。レースタスクにおける我々のアプローチを評価し、イテレーション間でエージェントのパフォーマンスを継続的に改善することを示す。
参考スコア（独自算出の注目度）: 39.422757399203334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) in games has gained significant momentum in recent years, enabling the creation of different agent behaviors that can transform a player's gaming experience. However, deploying RL agents in production environments presents two key challenges: (1) designing an effective reward function typically requires an RL expert, and (2) when a game's content or mechanics are modified, previously tuned reward weights may no longer be optimal. Towards the latter challenge, we propose an automated approach for iteratively fine-tuning an RL agent's reward function weights, based on a user-defined language based behavioral goal. A Language Model (LM) proposes updated weights at each iteration based on this target behavior and a summary of performance statistics from prior training rounds. This closed-loop process allows the LM to self-correct and refine its output over time, producing increasingly aligned behavior without the need for manual reward engineering. We evaluate our approach in a racing task and show that it consistently improves agent performance across iterations. The LM-guided agents show a significant increase in performance from $9\%$ to $74\%$ success rate in just one iteration. We compare our LM-guided tuning against a human expert's manual weight design in the racing task: by the final iteration, the LM-tuned agent achieved an $80\%$ success rate, and completed laps in an average of $855$ time steps, a competitive performance against the expert-tuned agent's peak $94\%$ success, and $850$ time steps.
Abstract（参考訳）: 近年,ゲームにおける強化学習 (Reinforcement Learning, RL) が大きな勢いを増し, プレイヤーのゲーム体験を変える様々なエージェントの動作が創られるようになった。しかし, 実運用環境におけるRLエージェントの展開は, 1) 有効報酬関数の設計には通常RL専門家が必要であり, (2) ゲームの内容やメカニックが修正された場合, 従来調整されていた報酬重み付けはもはや最適ではない。後者の課題に向けて、ユーザ定義言語に基づく行動目標に基づいて、RLエージェントの報酬関数重み付けを反復的に微調整する自動化アプローチを提案する。言語モデル(LM)は、この目標行動と事前のトレーニングラウンドのパフォーマンス統計の要約に基づいて、各イテレーションの重みを更新する。このクローズドループプロセスにより、LMは時間とともに自己修正し、出力を洗練し、手動の報酬工学を必要とせずに、より整合した振る舞いを生み出すことができる。レースタスクにおける我々のアプローチを評価し、イテレーション間でエージェントのパフォーマンスを継続的に改善することを示す。 LM誘導エージェントは、わずか1回のイテレーションで9.5%から74.%までの大幅なパフォーマンス向上を示した。最終イテレーションでは、LMチューニングされたエージェントは80\%$成功率を達成し、平均855ドルのタイムステップでラップを完了し、専門家チューニングされたエージェントが最高9,4\%のタイムステップと8,50ドルのタイムステップを達成しました。

関連論文リスト

SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.181156720071547]
強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文参考訳（メタデータ） (2025-05-27T05:21:04Z)
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-05-05T17:59:50Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。 Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文参考訳（メタデータ） (2024-10-19T13:53:50Z)
ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。法律の様式における代理人軌道の AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文参考訳（メタデータ） (2024-03-21T17:43:44Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文参考訳（メタデータ） (2023-10-04T07:56:42Z)
Markov Cricket: Using Forward and Inverse Reinforcement Learning to Model, Predict And Optimize Batting Performance in One-Day International Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文参考訳（メタデータ） (2021-03-07T13:11:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。