論文の概要: Trajectory Modeling via Random Utility Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.12092v1
- Date: Tue, 25 May 2021 17:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:33:27.427344
- Title: Trajectory Modeling via Random Utility Inverse Reinforcement Learning
- Title(参考訳): ランダムユーティリティ逆強化学習による軌道モデリング
- Authors: Anselmo R. Pitombeira-Neto, Helano P. Santos, Ticiana L. Coelho da
Silva, Jos\'e Antonio F. de Macedo
- Abstract要約: 道路ネットワークにおけるドライバの軌跡を逆強化学習の観点からモデル化することの問題点を考察する。
ランダムなマルコフ決定過程の定式化に基づく軌道のパラメータ化生成モデルを開発した。
最大エントロピー逆強化学習は、未観測の報酬誤差項に対してガムベル密度関数を仮定する場合、提案した定式化の特別な場合であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of modeling trajectories of drivers in a road network
from the perspective of inverse reinforcement learning. As rational agents,
drivers are trying to maximize some reward function unknown to an external
observer as they make up their trajectories. We apply the concept of random
utility from microeconomic theory to model the unknown reward function as a
function of observable features plus an error term which represents features
known only to the driver. We develop a parameterized generative model for the
trajectories based on a random utility Markov decision process formulation of
drivers decisions. We show that maximum entropy inverse reinforcement learning
is a particular case of our proposed formulation when we assume a Gumbel
density function for the unobserved reward error terms. We illustrate Bayesian
inference on model parameters through a case study with real trajectory data
from a large city obtained from sensors placed on sparsely distributed points
on the street network.
- Abstract(参考訳): 道路ネットワークにおけるドライバの軌跡を逆強化学習の観点からモデル化することの問題点を考察する。
合理的なエージェントとして、ドライバーは軌道を構成するときに外部のオブザーバーに未知の報酬関数を最大化しようとしている。
マイクロ経済理論からランダム効用の概念を適用し、未知の報酬関数を観測可能な特徴の関数としてモデル化する。
我々は,ドライバ決定のランダムな効用マルコフ決定過程の定式化に基づいて,軌跡のパラメータ化生成モデルを開発した。
また, 最大エントロピー逆強化学習は, 非観測報酬誤差項に対してガムベル密度関数を仮定した場合, 提案手法の具体例であることを示す。
本研究では,街路網の分散点にセンサを配置した大規模都市における実軌道データを用いて,モデルパラメータのベイズ推定を行う。
関連論文リスト
- Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - von Mises Quasi-Processes for Bayesian Circular Regression [57.88921637944379]
円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
結果の確率モデルは、統計物理学における連続スピンモデルと関係を持つ。
後続推論のために、高速マルコフ連鎖モンテカルロサンプリングに寄与するストラトノビッチのような拡張を導入する。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - DICE: Diverse Diffusion Model with Scoring for Trajectory Prediction [7.346307332191997]
本稿では,拡散モデルを用いて将来の軌跡を計算的に効率的に予測するフレームワークを提案する。
提案手法は, 試料軌道数を最大化し, 精度を向上させるための効率的なサンプリング機構である。
本研究では,一般歩行者(UCY/ETH)と自律走行(nuScenes)のベンチマークデータを用いて,経験的評価を行うことによるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T05:04:23Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - EquiDiff: A Conditional Equivariant Diffusion Model For Trajectory
Prediction [11.960234424309265]
本研究では,将来の車両軌道予測のための深部生成モデルであるEquiDiffを提案する。
EquiDiffは、過去の情報とランダムなガウスノイズを組み込んで将来の軌跡を生成する条件拡散モデルに基づいている。
以上の結果から,EquiDiffは短期予測では他のベースラインモデルよりも優れているが,長期予測では誤差が若干高いことがわかった。
論文 参考訳(メタデータ) (2023-08-12T13:17:09Z) - Extracting Reward Functions from Diffusion Models [7.834479563217133]
意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。
本研究では,低逆挙動をモデル化する意思決定拡散モデルと高逆挙動をモデル化するモデルを比較することで,報酬関数を抽出する問題を考察する。
提案手法は,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,シーケンシャルな意思決定を超えて一般化することを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:12Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Formulation and validation of a car-following model based on deep
reinforcement learning [0.0]
深部強化学習に基づく新車追従モデルの提案と検証を行う。
当社のモデルは, 自由・自動車追従体制において, 外部に与えられた報酬関数を最大化するように訓練されている。
これらの報酬関数のパラメータは、Intelligent Driver Modelのような従来のモデルに類似している。
論文 参考訳(メタデータ) (2021-09-29T08:27:12Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Modeling Stochastic Microscopic Traffic Behaviors: a Physics Regularized
Gaussian Process Approach [1.6242924916178285]
本研究では,実世界のランダム性を捉え,誤差を計測できる微視的交通モデルを提案する。
提案フレームワークの特長の一つは,自動車追従行動と車線変更行動の両方を1つのモデルで捉える能力である。
論文 参考訳(メタデータ) (2020-07-17T06:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。