論文の概要: Automated Reward Design for Gran Turismo
- arxiv url: http://arxiv.org/abs/2511.02094v1
- Date: Mon, 03 Nov 2025 22:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.694464
- Title: Automated Reward Design for Gran Turismo
- Title(参考訳): グランド・チューリッソの自動リワード設計
- Authors: Michel Ma, Takuma Seno, Kaushik Subramanian, Peter R. Wurman, Peter Stone, Craig Sherstan,
- Abstract要約: 本稿では,テキストベースの指示のみを前提として,グラナ・チューリッソ7レースゲームに望ましいRLエージェントを生成するために,報酬関数の空間を探索する方法を示す。
本システムは,チャンピオンレベルのRLレーシングエージェントであるGT Sophyと競合するレースエージェントの生成や,新しい動作の生成に使用できる。
- 参考スコア(独自算出の注目度): 20.200716940716834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When designing reinforcement learning (RL) agents, a designer communicates the desired agent behavior through the definition of reward functions - numerical feedback given to the agent as reward or punishment for its actions. However, mapping desired behaviors to reward functions can be a difficult process, especially in complex environments such as autonomous racing. In this paper, we demonstrate how current foundation models can effectively search over a space of reward functions to produce desirable RL agents for the Gran Turismo 7 racing game, given only text-based instructions. Through a combination of LLM-based reward generation, VLM preference-based evaluation, and human feedback we demonstrate how our system can be used to produce racing agents competitive with GT Sophy, a champion-level RL racing agent, as well as generate novel behaviors, paving the way for practical automated reward design in real world applications.
- Abstract(参考訳): 強化学習(RL)エージェントを設計する場合、デザイナーは報酬関数の定義を通じて望ましいエージェントの振る舞いを伝達する。
しかし、特に自律レースのような複雑な環境では、所望の振る舞いを報酬関数にマッピングすることは困難である。
本稿では,現在の基礎モデルが,テキストベースの指示のみを前提として,グラナ・チューリッソ7レースゲームにおいて望ましいRLエージェントを生成するために,報酬関数の空間を効果的に探索できることを実証する。
チャンピオンレベルのRLレーシングエージェントであるGT Sophyと競合するレースエージェントの製作に,LLMに基づく報酬生成,VLMの選好に基づく評価,人間からのフィードバックを組み合わせることで,新たな行動を生成するとともに,現実のアプリケーションにおける実用的な自動報酬設計の道を開いた。
関連論文リスト
- GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Generating and Evolving Reward Functions for Highway Driving with Large Language Models [18.464822261908562]
強化学習(RL)は自動運転技術の進歩において重要な役割を担っている。
本稿では,大規模言語モデル(LLM)をRLと統合し,自律運転における報酬関数設計を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-15T07:50:10Z) - Human-centric Reward Optimization for Reinforcement Learning-based Automated Driving using Large Language Models [15.11759379703718]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。
本稿では,大規模言語モデル(LLM)を用いて,人間中心の方法でRL報酬関数を直感的かつ効果的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-05-07T09:04:52Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。