論文の概要: Capturing positive utilities during the estimation of recursive logit
models: A prism-based approach
- arxiv url: http://arxiv.org/abs/2204.01215v1
- Date: Mon, 4 Apr 2022 02:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:59:57.054063
- Title: Capturing positive utilities during the estimation of recursive logit
models: A prism-based approach
- Title(参考訳): 再帰ロジットモデル推定における正の効用の獲得-プリズムに基づくアプローチ
- Authors: Yuki Oyama
- Abstract要約: 本稿では,プリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。
そこで,Prism-RLモデルでは,初期パラメータ値と真パラメータ値によらず,安定な推定が可能であることを示す。
歩行者ネットワークへの真の応用として,歩行者に対する街路緑の存在の肯定的な影響を見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the recursive logit (RL) model has been recently popular and has led
to many applications and extensions, an important numerical issue with respect
to the evaluation of value functions remains unsolved. This issue is
particularly significant for model estimation, during which the parameters are
updated every iteration and may violate the model feasible condition. To solve
this numerical issue, this paper proposes a prism-constrained RL (Prism-RL)
model that implicitly restricts the path set by the prism constraint defined
based upon a state-extended network representation. Providing a set of
numerical experiments, we show that the Prism-RL model succeeds in the stable
estimation regardless of the initial and true parameter values and is able to
capture positive utilities. In the real application to a pedestrian network, we
found the positive effect of street green presence on pedestrians. Moreover,
the Prism-RL model achieved higher goodness of fit than the RL model, implying
that the Prism-RL model can also describe more realistic route choice behavior.
- Abstract(参考訳): 近年,Recursive logit (RL) モデルが普及し,多くの応用や拡張がなされているが,値関数の評価に関する重要な数値問題は未解決のままである。
この問題はモデル推定において特に重要であり、パラメータはイテレーション毎に更新され、モデル実現可能な条件に違反する可能性がある。
本稿では,状態拡張ネットワーク表現に基づいて定義されたプリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。
数値実験の結果,Prism-RLモデルは初期パラメータ値と真パラメータ値によらず安定な推定に成功し,正の効用を捉えることができることがわかった。
歩行者ネットワークへの実際の応用において,街路緑の存在が歩行者に与える影響を見出した。
さらに、Prism-RLモデルはRLモデルよりも適合性が高く、Prism-RLモデルはより現実的な経路選択挙動を記述できることを示している。
関連論文リスト
- Reinformer: Max-Return Sequence Modeling for Offline RL [28.836172521538526]
オフライン強化学習(英語: offline reinforcement learning, RL)は、リターン、ゴール、将来の軌跡を含む後視情報に基づくシーケンスモデリングとして定式化されている。
この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。
本稿では,戻り値の最大化という目標を既存のシーケンスモデルに統合する,最大復帰シーケンスモデリングの概念を導入する。
論文 参考訳(メタデータ) (2024-05-14T16:30:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。