Fugu-MT 論文翻訳(概要): Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies

論文の概要: Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies

arxiv url: http://arxiv.org/abs/2410.10212v1
Date: Mon, 14 Oct 2024 07:10:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:24:44.257806
Title: Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies
Title（参考訳）: 汎用バス保持制御のための大規模言語モデル強化強化学習
Authors: Jiajie Yu, Yuhong Wang, Wei Ma,
Abstract要約: 本研究では,Large Language Models(LLMs)の文脈内学習と推論機能を活用した自動報酬生成パラダイムを提案する。提案するLLM拡張RLパラダイムの実現可能性を評価するため,合成単線システムや実世界の多線システムなど,様々なバス保持制御シナリオに適用した。
参考スコア（独自算出の注目度）: 12.599164162404994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bus holding control is a widely-adopted strategy for maintaining stability and improving the operational efficiency of bus systems. Traditional model-based methods often face challenges with the low accuracy of bus state prediction and passenger demand estimation. In contrast, Reinforcement Learning (RL), as a data-driven approach, has demonstrated great potential in formulating bus holding strategies. RL determines the optimal control strategies in order to maximize the cumulative reward, which reflects the overall control goals. However, translating sparse and delayed control goals in real-world tasks into dense and real-time rewards for RL is challenging, normally requiring extensive manual trial-and-error. In view of this, this study introduces an automatic reward generation paradigm by leveraging the in-context learning and reasoning capabilities of Large Language Models (LLMs). This new paradigm, termed the LLM-enhanced RL, comprises several LLM-based modules: reward initializer, reward modifier, performance analyzer, and reward refiner. These modules cooperate to initialize and iteratively improve the reward function according to the feedback from training and test results for the specified RL-based task. Ineffective reward functions generated by the LLM are filtered out to ensure the stable evolution of the RL agents' performance over iterations. To evaluate the feasibility of the proposed LLM-enhanced RL paradigm, it is applied to various bus holding control scenarios, including a synthetic single-line system and a real-world multi-line system. The results demonstrate the superiority and robustness of the proposed paradigm compared to vanilla RL strategies, the LLM-based controller, and conventional space headway-based feedback control. This study sheds light on the great potential of utilizing LLMs in various smart mobility applications.
Abstract（参考訳）: バスの保持制御は、バスシステムの安定性を維持し、運転効率を向上させるために広く採用されている戦略である。従来のモデルに基づく手法は、バスの状態予測と乗客の需要予測の精度の低い課題に直面することが多い。対照的に、データ駆動型アプローチとしての強化学習(RL)は、バス保持戦略を定式化する大きな可能性を示している。 RLは、総制御目標を反映した累積報酬を最大化する最適制御戦略を決定する。しかし、現実のタスクにおけるスパースと遅延制御目標をRLの高密度かつリアルタイムな報酬に変換することは困難であり、通常、広範囲な手動による試行錯誤が必要となる。そこで本研究では,Large Language Models (LLM) の文脈内学習と推論機能を活用することで,自動報酬生成パラダイムを提案する。 LLM拡張RLと呼ばれるこの新しいパラダイムは、報奨初期化器、報奨修飾器、性能解析器、報奨精製器という、LLMベースのモジュールで構成されている。これらのモジュールは、所定のRLベースのタスクのトレーニングおよびテスト結果からのフィードバックに応じて、報酬関数の初期化と反復的に改善に協力する。 LLMが生成した非効率な報酬関数をフィルタリングし、反復よりもRLエージェントの性能が安定に進化することを保証する。提案するLLM拡張RLパラダイムの実現可能性を評価するため,合成単線システムや実世界の多線システムなど,様々なバス保持制御シナリオに適用した。この結果は,バニラRL戦略やLLM制御,従来の空間方向フィードバック制御と比較して,提案手法の優位性とロバスト性を示すものである。この研究は、様々なスマートモビリティアプリケーションでLLMを利用する大きな可能性について光を当てる。

関連論文リスト

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文参考訳（メタデータ） (2026-02-03T03:14:36Z)
COVR:Collaborative Optimization of VLMs and RL Agent for Visual-Based Control [37.27710513408952]
視覚強化学習(RL)は、複雑なタスクにおける高次元観察により、サンプル効率の低下に悩まされる。我々は,VLMおよびRLポリシーの相互強化を可能にする協調最適化フレームワークであるCOVRを提案する。
論文参考訳（メタデータ） (2026-01-04T03:53:05Z)
rSIM: Incentivizing Reasoning Capabilities of LLMs via Reinforced Strategy Injection [49.74493901036598]
大規模言語モデル(LLM)は強化学習(RL)を通して後訓練され、推論言語モデル(RLM)へと進化する。本稿では, 小型プランナを用いることで, LLM を RLM にすることができる新規な強化戦略注入機構 (rSIM) を提案する。実験結果から、rSIMによりQwen2.5-0.5BはRLMとなり、Qwen2.5-14Bより大幅に優れていた。
論文参考訳（メタデータ） (2025-12-09T06:55:39Z)
Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-11-02T16:33:45Z)
Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation [23.945049006150555]
大規模言語モデル(LLM)は、多様なデジタルプラットフォームにまたがってパーソナライズされたコンテンツを配信することによって、ユーザエンゲージメントを高める重要なツールとなっている。 LLMを主要なレコメンデーションポリシとして直接デプロイすることは、永続的なレイテンシの問題を含む、注目すべき課題を提示する。本稿では,LLM生成軌道からの模倣学習を利用した新しいオフライン強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-15T07:28:29Z)
Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文参考訳（メタデータ） (2025-09-20T13:11:28Z)
Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
SuperRLは、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークである。 SuperRLは、スパース報酬の下でサンプル効率、一般化、堅牢性を向上させることで、標準強化学習を一貫して上回る。
論文参考訳（メタデータ） (2025-06-01T17:43:54Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。 LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文参考訳（メタデータ） (2024-10-10T13:54:11Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文参考訳（メタデータ） (2024-08-30T16:16:57Z)
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。 PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。 LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T04:21:24Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文参考訳（メタデータ） (2023-11-15T09:50:54Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion [16.800984476447624]
本稿では,モデルに基づく最適制御と強化学習を組み合わせた制御フレームワークを提案する。我々は、一連の実験を通じて、フレームワークの堅牢性と制御性を検証する。本フレームワークは,多様な次元を持つロボットに対する制御ポリシーのトレーニングを,無力的に支援する。
論文参考訳（メタデータ） (2023-05-29T01:33:55Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。