Fugu-MT 論文翻訳(概要): Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning

論文の概要: Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2501.08234v1
Date: Tue, 14 Jan 2025 16:19:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.545814
Title: Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習を用いた高速鉄道における動的価格設定
Authors: Enrique Adrian Villarrubia-Martin, Luis Rodriguez-Benitez, David Muñoz-Valero, Giovanni Montana, Luis Jimenez-Linares,
Abstract要約: 本稿では,競合演算子や協調演算子のコンテキストにおいて,効果的な動的価格戦略を設計する上での課題について述べる。非ゼロサムマルコフゲームに基づく強化学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 4.800138615859937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses a critical challenge in the high-speed passenger railway industry: designing effective dynamic pricing strategies in the context of competing and cooperating operators. To address this, a multi-agent reinforcement learning (MARL) framework based on a non-zero-sum Markov game is proposed, incorporating random utility models to capture passenger decision making. Unlike prior studies in areas such as energy, airlines, and mobile networks, dynamic pricing for railway systems using deep reinforcement learning has received limited attention. A key contribution of this paper is a parametrisable and versatile reinforcement learning simulator designed to model a variety of railway network configurations and demand patterns while enabling realistic, microscopic modelling of user behaviour, called RailPricing-RL. This environment supports the proposed MARL framework, which models heterogeneous agents competing to maximise individual profits while fostering cooperative behaviour to synchronise connecting services. Experimental results validate the framework, demonstrating how user preferences affect MARL performance and how pricing policies influence passenger choices, utility, and overall system dynamics. This study provides a foundation for advancing dynamic pricing strategies in railway systems, aligning profitability with system-wide efficiency, and supporting future research on optimising pricing policies.
Abstract（参考訳）: 本稿では, 高速旅客鉄道産業における重要な課題として, 競合事業者と協調事業者の文脈において, 効果的な動的価格戦略を設計することについて述べる。これを解決するために,非ゼロサムマルコフゲームに基づくマルチエージェント強化学習(MARL)フレームワークを提案する。エネルギー、航空会社、移動ネットワークといった分野の先行研究とは異なり、深層強化学習を用いた鉄道システムの動的価格設定は注目されていない。この論文の重要な貢献は、RailPricing-RLと呼ばれるユーザ行動の現実的で微妙なモデリングを可能にしつつ、様々な鉄道網構成と需要パターンをモデル化するパラメトリブルで汎用的な強化学習シミュレータである。この環境はMARLフレームワークをサポートし, サービス同期のための協調行動を促進しながら, 個人利益を最大化するために競合する異種エージェントをモデル化する。実験の結果,利用者の嗜好がMARLのパフォーマンスにどのように影響するか,価格ポリシーが乗客の選択や実用性,システム全体のダイナミクスにどのように影響するかを検証した。本研究は,鉄道システムにおける動的価格戦略の進展,収益性とシステム全体の効率性との整合,価格政策の最適化に関する今後の研究を支援する基盤を提供する。

関連論文リスト

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems [6.547090882667874]
マルチオペレータ強化学習フレームワークを導入することで,競争が政策学習に与える影響について検討する。複数の都市の実世界のデータを用いた実験は、競争が学習した振る舞いを根本的に変え、価格を下げ、艦隊の配置パターンを明確にすることを示した。
論文参考訳（メタデータ） (2026-03-05T09:44:24Z)
Balancing Fine-tuning and RAG: A Hybrid Strategy for Dynamic LLM Recommendation Updates [11.974496007403694]
大規模言語モデル(LLM)は、高度な推論と計画能力を通じてレコメンデーションシステムを強化する。本稿では,LLMを利用したリコメンデータの更新戦略について検討し,現在進行中の微調整と検索機能強化(RAG)のトレードオフに着目した。本稿では,周期的微調整の長期的知識適応と低コストRAGの俊敏性を活用するハイブリッド更新戦略を提案する。
論文参考訳（メタデータ） (2025-10-23T06:31:00Z)
UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文参考訳（メタデータ） (2025-09-24T03:33:20Z)
Order Acquisition Under Competitive Pressure: A Rapidly Adaptive Reinforcement Learning Approach for Ride-Hailing Subsidy Strategies [0.5717569761927883]
本稿では,高速競争適応(FCA)とRLA(Reinforced Lagrangian Adjustment)を提案し,競争相手の価格調整に迅速に適応する。提案手法は,動的価格変動に対する迅速な対応を可能にする高速競争適応(FCA)と,予算制約の遵守を保証する強化ラグランジアン調整(RLA)の2つの重要な手法を統合する。実験結果から,提案手法は多様な市場条件におけるベースラインアプローチを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-07-03T02:38:42Z)
LLM-ODDR: A Large Language Model Framework for Joint Order Dispatching and Driver Repositioning [9.36976476514113]
配車サービスにおける大規模言語モデル(LLMs)を協調運転者配置(ODDR)に活用する新しい枠組みを提案する。我々の枠組みは, 従来の手法よりも, 有効性, 異常条件への適応性, 意思決定性において優れていた。
論文参考訳（メタデータ） (2025-05-28T13:14:55Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文参考訳（メタデータ） (2025-02-04T03:36:44Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Dynamic Retail Pricing via Q-Learning -- A Reinforcement Learning Framework for Enhanced Revenue Management [0.0]
本稿では、小売業における動的価格戦略を強化するため、Q-Learningアルゴリズムを用いた強化学習(RL)フレームワークの適用について検討する。模擬小売環境を構築することで、消費者行動や市場状況のリアルタイム変化にRLが効果的に対処する方法を実証する。
論文参考訳（メタデータ） (2024-11-27T11:59:06Z)
MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文参考訳（メタデータ） (2024-10-25T16:20:46Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Dynamic Pricing for Electric Vehicle Charging [6.1003048508889535]
複数の競合する目的に効率的に対処することで、動的価格問題に対する新しい定式化を開発する。動的価格モデルは、複数の競合する目的を同時に解決しながら、需要と価格の関係を定量化する。カリフォルニアの2つの充電サイトのリアルワールドデータが我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-08-26T10:32:21Z)
Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文参考訳（メタデータ） (2023-10-13T03:39:15Z)
Insurance pricing on price comparison websites via reinforcement learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文参考訳（メタデータ） (2023-08-14T04:44:56Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文参考訳（メタデータ） (2021-05-27T16:32:28Z)
Value Function is All You Need: A Unified Learning Framework for Ride Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文参考訳（メタデータ） (2021-05-18T19:22:24Z)
MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文参考訳（メタデータ） (2020-02-18T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。