論文の概要: Application of Deep Q Learning with Stimulation Results for Elevator
Optimization
- arxiv url: http://arxiv.org/abs/2210.00065v1
- Date: Fri, 30 Sep 2022 19:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:24:06.881228
- Title: Application of Deep Q Learning with Stimulation Results for Elevator
Optimization
- Title(参考訳): 刺激結果を用いた深部Q学習のエレベータ最適化への応用
- Authors: Zheng Cao, Raymond Guo, Caesar M. Tuguinay, Mark Pock, Jiayi Gao, Ziyu
Wang
- Abstract要約: 本稿では,エレベータ待ち時間を最適化するために,プログラミングと数学を組み合わせる手法を提案する。
まず,エレベータの背後にある論理の直感的な理解からナイーブモデルを開発する。
同じ評価フレームワークを用いて,エレベータ制御のためのハードコードナイーブアプローチに適合するディープQ学習モデルの開発を進める。
- 参考スコア(独自算出の注目度): 8.124288380367018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a methodology for combining programming and mathematics
to optimize elevator wait times. Based on simulated user data generated
according to the canonical three-peak model of elevator traffic, we first
develop a naive model from an intuitive understanding of the logic behind
elevators. We take into consideration a general array of features including
capacity, acceleration, and maximum wait time thresholds to adequately model
realistic circumstances. Using the same evaluation framework, we proceed to
develop a Deep Q Learning model in an attempt to match the hard-coded naive
approach for elevator control. Throughout the majority of the paper, we work
under a Markov Decision Process (MDP) schema, but later explore how the
assumption fails to characterize the highly stochastic overall Elevator Group
Control System (EGCS).
- Abstract(参考訳): 本稿では,エレベータ待ち時間を最適化するために,プログラミングと数学を組み合わせる手法を提案する。
エレベータトラフィックの標準3ピークモデルに基づいて生成されたシミュレーションユーザデータに基づいて,エレベータの背後にある論理の直感的な理解から,まずナイーブモデルを開発する。
実環境を適切にモデル化するために,キャパシティ,アクセラレーション,最大待ち時間しきい値などの一般的な特徴を考慮した。
同じ評価フレームワークを用いて,エレベータ制御のためのハードコードナイーブアプローチに適合するため,Deep Q Learningモデルの開発を進めた。
論文の大部分を通して、マルコフ決定プロセス(MDP)のスキーマの下で作業するが、後にその仮定が、非常に確率的な全体エレベータ群制御システム(EGCS)の特徴をどう特徴づけるかを考察する。
関連論文リスト
- Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - UTBoost: A Tree-boosting based System for Uplift Modeling [6.915863353204588]
アップリフトモデリング(アップリフトモデリング)とは、マネージャが顧客のアップリフトを見積もるのに使用できる一連の機械学習技術を指す。
そこで本研究では,GBDT(Gradient Boosting Decision Trees)アルゴリズムの2つの革新的適応法を提案する。
大規模データセットを用いた実験により,提案手法の有用性が示された。
論文 参考訳(メタデータ) (2023-12-05T08:41:23Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。
CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。
本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文 参考訳(メタデータ) (2022-01-13T21:38:33Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Real-time Forecast Models for TBM Load Parameters Based on Machine
Learning Methods [6.247628933072029]
本論文では, TBM運用データに基づいて機械学習(ML)手法を用いて, TBM負荷パラメータのリアルタイム予測モデルを構築する。
モデル複雑性を低減し、一般化を改善するため、予測タスクの本質的特徴を抽出するために、最小絶対縮小および選択法(Lasso)を適用した。
論文 参考訳(メタデータ) (2021-04-12T07:31:39Z) - Accelerating Pre-trained Language Models via Calibrated Cascade [37.00619245086208]
我々は,動的早期退避の動作機構を解析し,推論速度と性能のトレードオフを十分に達成できないことを確認した。
本稿では,キャスケード方式で適切なサイズの完全モデルを動的に選択するCascadeBERTを提案する。
論文 参考訳(メタデータ) (2020-12-29T09:43:50Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。