論文の概要: A deep real options policy for sequential service region design and
timing
- arxiv url: http://arxiv.org/abs/2212.14800v1
- Date: Fri, 30 Dec 2022 16:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:36:46.798218
- Title: A deep real options policy for sequential service region design and
timing
- Title(参考訳): シーケンシャルサービス領域設計とタイミングのための深いリアルオプションポリシー
- Authors: Srushti Rath, Joseph Y. J. Chow
- Abstract要約: 本稿では、シーケンシャルなサービス領域設計とタイミング問題のためのスケーラブルな機械学習ベースのROフレームワークを提案する。
提案手法は, 総合計算コスト(総投資シーケンスの90%以上をRO評価する時間)を, ベンチマークと比較すると, ゼロからほぼゼロの差で大幅に削減する。
ブルックリンのMoDサービス拡張のためのシーケンシャルサービス領域設計のケーススタディでは、CR-RNNポリシーを用いて最適なRO投資戦略を決定することで、同様のパフォーマンスが得られることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As various city agencies and mobility operators navigate toward innovative
mobility solutions, there is a need for strategic flexibility in well-timed
investment decisions in the design and timing of mobility service regions, i.e.
cast as "real options" (RO). This problem becomes increasingly challenging with
multiple interacting RO in such investments. We propose a scalable machine
learning based RO framework for multi-period sequential service region design &
timing problem for mobility-on-demand services, framed as a Markov decision
process with non-stationary stochastic variables. A value function
approximation policy from literature uses multi-option least squares Monte
Carlo simulation to get a policy value for a set of interdependent investment
decisions as deferral options (CR policy). The goal is to determine the optimal
selection and timing of a set of zones to include in a service region. However,
prior work required explicit enumeration of all possible sequences of
investments. To address the combinatorial complexity of such enumeration, we
propose a new variant "deep" RO policy using an efficient recurrent neural
network (RNN) based ML method (CR-RNN policy) to sample sequences to forego the
need for enumeration, making network design & timing policy tractable for large
scale implementation. Experiments on multiple service region scenarios in New
York City (NYC) shows the proposed policy substantially reduces the overall
computational cost (time reduction for RO evaluation of > 90% of total
investment sequences is achieved), with zero to near-zero gap compared to the
benchmark. A case study of sequential service region design for expansion of
MoD services in Brooklyn, NYC show that using the CR-RNN policy to determine
optimal RO investment strategy yields a similar performance (0.5% within CR
policy value) with significantly reduced computation time (about 5.4 times
faster).
- Abstract(参考訳): 様々な都市機関やモビリティオペレーターが革新的なモビリティソリューションに向かっているため、モビリティサービスエリアの設計とタイミング、すなわち「リアルオプション」 (RO) のキャストにおいて、適切な投資決定に戦略的柔軟性が必要である。
この問題は、そのような投資において複数の相互作用するROによってますます困難になる。
非定常確率変数を用いたマルコフ決定プロセスとして,マルチシーケンシャルなサービス領域設計と移動オンデマンドサービスのタイミング問題のためのスケーラブルな機械学習ベースのROフレームワークを提案する。
文学における価値関数近似政策は、多オプション最小二乗モンテカルロシミュレーションを用いて、遅延オプション(crポリシー)として一連の相互依存投資決定の政策価値を得る。
目標は、サービス領域に含まれる一連のゾーンの最適な選択とタイミングを決定することである。
しかし、以前の作業では、可能なすべての投資シーケンスの明示的な列挙が必要だった。
このような列挙の組合せ複雑性に対処するために,効率的なリカレントニューラルネットワーク(RNN)に基づくML法(CR-RNNポリシー)を用いた新しい変種ROポリシーを提案し,列挙の必要性を予見し,大規模実装に適したネットワーク設計とタイミングポリシーを提案する。
ニューヨーク市(NYC)における複数のサービス領域のシナリオに関する実験では、提案手法により全体の計算コストが大幅に削減され(総投資シーケンスの90%以上のRO評価の時間短縮が達成される)、ベンチマークと比べてゼロからほぼゼロの差が生じる。
ブルックリンのMoDサービス拡張のためのシーケンシャルサービス領域設計のケーススタディでは、CR-RNNポリシーを用いて最適なRO投資戦略を決定すると、計算時間を大幅に短縮し(約5.4倍)、同様の性能(CRポリシー値の0.5%)が得られることが示されている。
関連論文リスト
- CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization [13.055378785343335]
多数の細胞にまたがってうまく機能する学習モデルの訓練と維持は、関連する問題となっている。
本稿では,多数のセルサイトにわたるRAN最適化を実現するための拡張学習政策バンクを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:05:17Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - A State-Augmented Approach for Learning Optimal Resource Management
Decisions in Wireless Networks [58.720142291102135]
マルチユーザ無線ネットワークにおける無線リソース管理(RRM)問題について考察する。
目標は、ユーザのエルゴード平均パフォーマンスに制約を受けるネットワーク全体のユーティリティ機能を最適化することである。
本稿では, RRM の制約に対応する2変数の集合を入力として, 瞬時ネットワーク状態と並行して, RRM のパラメータ化を提案する。
論文 参考訳(メタデータ) (2022-10-28T21:24:13Z) - Multi-Agent Deep Reinforcement Learning for Cost- and Delay-Sensitive
Virtual Network Function Placement and Routing [36.51614774073273]
本稿では、仮想ネットワーク機能(VNF)配置とルーティング(P&R)を解決するための、効果的で新しいマルチエージェント深部強化学習(MADRL)法を提案する。
我々はまず,NP完全であるサービス遅延と資源消費コストの重み付けを最小化するために,VNF P&R問題を構築する。
2つのサブタスクを実行するためにMADRL-P&Rフレームワークを設計した。
論文 参考訳(メタデータ) (2022-06-24T08:24:48Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - Deep Reinforcement Learning for QoS-Constrained Resource Allocation in
Multiservice Networks [0.3324986723090368]
本稿では、マルチサービス無線システムにおける満足度保証に対するスペクトル効率の最大化を主な目的とする非最適化問題に焦点をあてる。
本稿では,Reinforcement Learning (RL) フレームワークに基づくソリューションを提案し,各エージェントがローカル環境とのインタラクションによってポリシーを見つける決定を行う。
スループットと停止率の観点から、後者のほぼ最適性能を示す。
論文 参考訳(メタデータ) (2020-03-03T19:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。