Fugu-MT 論文翻訳(概要): Capturing positive utilities during the estimation of recursive logit models: A prism-based approach

論文の概要: Capturing positive utilities during the estimation of recursive logit models: A prism-based approach

arxiv url: http://arxiv.org/abs/2204.01215v1
Date: Mon, 4 Apr 2022 02:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-05 16:59:57.054063
Title: Capturing positive utilities during the estimation of recursive logit models: A prism-based approach
Title（参考訳）: 再帰ロジットモデル推定における正の効用の獲得-プリズムに基づくアプローチ
Authors: Yuki Oyama
Abstract要約: 本稿では,プリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。そこで,Prism-RLモデルでは,初期パラメータ値と真パラメータ値によらず,安定な推定が可能であることを示す。歩行者ネットワークへの真の応用として,歩行者に対する街路緑の存在の肯定的な影響を見出した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although the recursive logit (RL) model has been recently popular and has led to many applications and extensions, an important numerical issue with respect to the evaluation of value functions remains unsolved. This issue is particularly significant for model estimation, during which the parameters are updated every iteration and may violate the model feasible condition. To solve this numerical issue, this paper proposes a prism-constrained RL (Prism-RL) model that implicitly restricts the path set by the prism constraint defined based upon a state-extended network representation. Providing a set of numerical experiments, we show that the Prism-RL model succeeds in the stable estimation regardless of the initial and true parameter values and is able to capture positive utilities. In the real application to a pedestrian network, we found the positive effect of street green presence on pedestrians. Moreover, the Prism-RL model achieved higher goodness of fit than the RL model, implying that the Prism-RL model can also describe more realistic route choice behavior.
Abstract（参考訳）: 近年,Recursive logit (RL) モデルが普及し,多くの応用や拡張がなされているが,値関数の評価に関する重要な数値問題は未解決のままである。この問題はモデル推定において特に重要であり、パラメータはイテレーション毎に更新され、モデル実現可能な条件に違反する可能性がある。本稿では,状態拡張ネットワーク表現に基づいて定義されたプリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。数値実験の結果,Prism-RLモデルは初期パラメータ値と真パラメータ値によらず安定な推定に成功し,正の効用を捉えることができることがわかった。歩行者ネットワークへの実際の応用において,街路緑の存在が歩行者に与える影響を見出した。さらに、Prism-RLモデルはRLモデルよりも適合性が高く、Prism-RLモデルはより現実的な経路選択挙動を記述できることを示している。

関連論文リスト

Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文参考訳（メタデータ） (2025-07-23T01:02:17Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
Towards General-Purpose Model-Free Reinforcement Learning [40.973429772093155]
強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されることが多い。そこで本研究では,ドメインと問題設定の多様なクラスに対処可能なモデルフリーの深部RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-27T15:36:37Z)
Reinformer: Max-Return Sequence Modeling for Offline RL [28.836172521538526]
オフライン強化学習(英語: offline reinforcement learning, RL)は、リターン、ゴール、将来の軌跡を含む後視情報に基づくシーケンスモデリングとして定式化されている。この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。本稿では,戻り値の最大化という目標を既存のシーケンスモデルに統合する,最大復帰シーケンスモデリングの概念を導入する。
論文参考訳（メタデータ） (2024-05-14T16:30:03Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文参考訳（メタデータ） (2023-10-31T19:16:07Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文参考訳（メタデータ） (2021-12-28T15:51:07Z)
Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (2021-06-03T17:58:51Z)
Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文参考訳（メタデータ） (2021-04-09T03:13:35Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。