論文の概要: Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems
- arxiv url: http://arxiv.org/abs/2603.00176v1
- Date: Thu, 26 Feb 2026 19:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.083717
- Title: Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems
- Title(参考訳): ブリッジ政策と実世界のダイナミクス:共有マイクロモビリティシステムのためのLLM強化リバランシング
- Authors: Heng Tan, Hua Yan, Yu Yang,
- Abstract要約: 共有マイクロモビリティ・リバランシングのための LLM 拡張ポリシー適応フレームワークである AMPLIFY を紹介する。
このフレームワークは、ベースラインリバランスモジュールとLCMベースの適応モジュールを組み合わせることで、緊急シナリオ下で戦略をリアルタイムで調整する。
シカゴにおける実世界のe-scooterデータの評価は,我々のアプローチがベースラインポリシーよりも需要満足度やシステム収益を改善することを示している。
- 参考スコア(独自算出の注目度): 8.57514610822263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shared micromobility services such as e-scooters and bikes have become an integral part of urban transportation, yet their efficiency critically depends on effective vehicle rebalancing. Existing methods either optimize for average demand patterns or employ robust optimization and reinforcement learning to handle predefined uncertainties. However, these approaches overlook emergent events (e.g., demand surges, vehicle outages, regulatory interventions) or sacrifice performance in normal conditions. We introduce AMPLIFY, an LLM-augmented policy adaptation framework for shared micromobility rebalancing. The framework combines a baseline rebalancing module with an LLM-based adaptation module that adjusts strategies in real time under emergent scenarios. The adaptation module ingests system context, demand predictions, and baseline strategies, and refines adjustments through self-reflection. Evaluations on real-world e-scooter data from Chicago show that our approach improves demand satisfaction and system revenue compared to baseline policies, highlighting the potential of LLM-driven adaptation as a flexible solution for managing uncertainty in micromobility systems.
- Abstract(参考訳): 電動スクーターや自転車などの共有マイクロモビリティサービスは、都市交通の不可欠な部分となっているが、その効率性は効果的な車両再バランスに依存している。
既存の方法は、平均的な需要パターンを最適化するか、事前定義された不確実性を扱うために堅牢な最適化と強化学習を採用する。
しかし、これらのアプローチは、緊急な出来事(需要急増、車両の停止、規制介入など)を見落とし、あるいは正常な状態におけるパフォーマンスを犠牲にしている。
共有マイクロモビリティ・リバランシングのための LLM 拡張ポリシー適応フレームワークである AMPLIFY を紹介する。
このフレームワークは、ベースラインリバランスモジュールとLCMベースの適応モジュールを組み合わせることで、緊急シナリオ下で戦略をリアルタイムで調整する。
適応モジュールは、システムコンテキスト、需要予測、ベースライン戦略を取り込み、自己回帰を通じて調整を洗練する。
シカゴにおける実世界のe-scooterデータによる評価から,我々のアプローチは,マイクロモビリティシステムにおける不確実性を管理するフレキシブルなソリューションとしてのLCMによる適応の可能性を強調し,ベースラインポリシーと比較して需要満足度やシステム収益の向上を図っている。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Hierarchical Optimization via LLM-Guided Objective Evolution for Mobility-on-Demand Systems [9.979671028876464]
動的階層システムにおいて,大規模言語モデル(LLM)と数学的最適化を統合した新しいフレームワークを提案する。
このフレームワーク内では、LLMはメタ最適化として機能し、制約執行とリアルタイム決定実行に責任を負う低レベルのセマンティクスを生成する。
ニューヨークとシカゴの両方のタクシーデータに基づく実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-10-12T14:56:19Z) - Adaptive Composition of Machine Learning as a Service (MLaaS) for IoT Environments [0.0]
IoT(Internet of Things)環境の動的な性質は、マシンラーニング・アズ・ア・サービス(ML)構成の有効性に疑問を投げかけるものだ。
本稿では,シームレスで効率的でスケーラブルなML合成を実現するための適応型ML合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T11:31:00Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [75.14823970163685]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Towards More Efficient Shared Autonomous Mobility: A Learning-Based
Fleet Repositioning Approach [0.0]
本稿では,SAMSフリートをマルコフ決定プロセスとして定式化し,ISR(Integrated System-Adnt Repositioning)と呼ばれる強化学習型再配置(RLR)アプローチを提案する。
ISRは、需要予測を明示せずに、需要パターンの進化に対応することを学び、最適化に基づく乗客と車両の割り当てに協力する。
その結果, RLR アプローチは JO アプローチと比較して, 乗客待ち時間を大幅に削減し, 50% 以上を達成できた。
論文 参考訳(メタデータ) (2022-10-16T23:30:46Z) - A Modular and Transferable Reinforcement Learning Framework for the
Fleet Rebalancing Problem [2.299872239734834]
モデルフリー強化学習(RL)に基づく艦隊再バランスのためのモジュラーフレームワークを提案する。
動作領域のグリッド上の分布としてRL状態とアクション空間を定式化し,フレームワークをスケーラブルにする。
実世界の旅行データとネットワークデータを用いた数値実験は、このアプローチがベースライン法よりもいくつかの異なる利点があることを実証している。
論文 参考訳(メタデータ) (2021-05-27T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。