論文の概要: Capturing positive utilities during the estimation of recursive logit
models: A prism-based approach
- arxiv url: http://arxiv.org/abs/2204.01215v1
- Date: Mon, 4 Apr 2022 02:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:59:57.054063
- Title: Capturing positive utilities during the estimation of recursive logit
models: A prism-based approach
- Title(参考訳): 再帰ロジットモデル推定における正の効用の獲得-プリズムに基づくアプローチ
- Authors: Yuki Oyama
- Abstract要約: 本稿では,プリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。
そこで,Prism-RLモデルでは,初期パラメータ値と真パラメータ値によらず,安定な推定が可能であることを示す。
歩行者ネットワークへの真の応用として,歩行者に対する街路緑の存在の肯定的な影響を見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the recursive logit (RL) model has been recently popular and has led
to many applications and extensions, an important numerical issue with respect
to the evaluation of value functions remains unsolved. This issue is
particularly significant for model estimation, during which the parameters are
updated every iteration and may violate the model feasible condition. To solve
this numerical issue, this paper proposes a prism-constrained RL (Prism-RL)
model that implicitly restricts the path set by the prism constraint defined
based upon a state-extended network representation. Providing a set of
numerical experiments, we show that the Prism-RL model succeeds in the stable
estimation regardless of the initial and true parameter values and is able to
capture positive utilities. In the real application to a pedestrian network, we
found the positive effect of street green presence on pedestrians. Moreover,
the Prism-RL model achieved higher goodness of fit than the RL model, implying
that the Prism-RL model can also describe more realistic route choice behavior.
- Abstract(参考訳): 近年,Recursive logit (RL) モデルが普及し,多くの応用や拡張がなされているが,値関数の評価に関する重要な数値問題は未解決のままである。
この問題はモデル推定において特に重要であり、パラメータはイテレーション毎に更新され、モデル実現可能な条件に違反する可能性がある。
本稿では,状態拡張ネットワーク表現に基づいて定義されたプリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。
数値実験の結果,Prism-RLモデルは初期パラメータ値と真パラメータ値によらず安定な推定に成功し,正の効用を捉えることができることがわかった。
歩行者ネットワークへの実際の応用において,街路緑の存在が歩行者に与える影響を見出した。
さらに、Prism-RLモデルはRLモデルよりも適合性が高く、Prism-RLモデルはより現実的な経路選択挙動を記述できることを示している。
関連論文リスト
- Expressive Modeling Is Insufficient for Offline RL: A Tractable
Inference Perspective [39.94270135913932]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,各種クエリの正確かつ効率的な応答能力であるトラクタビリティが,同様に重要な役割を担っていることを強調する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。