論文の概要: Analyzing sequential activity and travel decisions with interpretable deep inverse reinforcement learning
- arxiv url: http://arxiv.org/abs/2503.12761v1
- Date: Mon, 17 Mar 2025 02:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:46.321377
- Title: Analyzing sequential activity and travel decisions with interpretable deep inverse reinforcement learning
- Title(参考訳): 解釈可能な深層逆強化学習による逐次行動と旅行決定の分析
- Authors: Yuebing Liang, Shenhao Wang, Jiangbo Yu, Zhan Zhao, Jinhua Zhao, Sandy Pentland,
- Abstract要約: 本稿では,行動トラバー決定過程を解析するための解釈可能なDIRLフレームワークを提案する。
提案手法は,活動トラバー行動の報酬と政策関数を推定するために,逆IRLアプローチに適応する。
実世界の旅行調査データを分析したところ、2つの重要な領域で有望な結果が得られた。
- 参考スコア(独自算出の注目度): 11.791625302942418
- License:
- Abstract: Travel demand modeling has shifted from aggregated trip-based models to behavior-oriented activity-based models because daily trips are essentially driven by human activities. To analyze the sequential activity-travel decisions, deep inverse reinforcement learning (DIRL) has proven effective in learning the decision mechanisms by approximating a reward function to represent preferences and a policy function to replicate observed behavior using deep neural networks (DNNs). However, most existing research has focused on using DIRL to enhance only prediction accuracy, with limited exploration into interpreting the underlying decision mechanisms guiding sequential decision-making. To address this gap, we introduce an interpretable DIRL framework for analyzing activity-travel decision processes, bridging the gap between data-driven machine learning and theory-driven behavioral models. Our proposed framework adapts an adversarial IRL approach to infer the reward and policy functions of activity-travel behavior. The policy function is interpreted through a surrogate interpretable model based on choice probabilities from the policy function, while the reward function is interpreted by deriving both short-term rewards and long-term returns for various activity-travel patterns. Our analysis of real-world travel survey data reveals promising results in two key areas: (i) behavioral pattern insights from the policy function, highlighting critical factors in decision-making and variations among socio-demographic groups, and (ii) behavioral preference insights from the reward function, indicating the utility individuals gain from specific activity sequences.
- Abstract(参考訳): 旅行需要モデリングは、基本的には人間の活動によって駆動されるため、集計された旅行ベースモデルから行動指向の行動ベースモデルへと移行してきた。
シーケンシャルな活動トラバーの決定を分析するために、ディープ・逆強化学習(DIRL)は、好みを表す報酬関数と、ディープニューラルネットワーク(DNN)を用いて観察された行動を再現するポリシー関数を近似することにより、決定機構の学習に有効であることが証明された。
しかしながら、既存のほとんどの研究は、予測精度のみを向上させるためにDIRLを使用することに重点を置いており、シーケンシャルな意思決定を導く決定機構の解釈について限定的な調査を行っている。
このギャップに対処するために,データ駆動型機械学習と理論駆動型行動モデルとのギャップを埋めて,アクティビティトラバー決定プロセスを分析するための解釈可能なDIRLフレームワークを導入する。
提案手法は,活動トラバー行動の報酬と政策関数を推定するために,逆IRLアプローチに適応する。
政策関数は、政策関数から選択確率に基づいて代理解釈可能なモデルを通して解釈され、報酬関数は、様々な活動トラバーパターンに対する短期報酬と長期リターンの両方を導出することによって解釈される。
実世界の旅行調査データを分析したところ、2つの重要な領域で有望な結果が得られた。
一 政策機能からの行動パターンの洞察、意思決定における重要な要因、社会デミノグラフィー集団間の差異、及び
(2)報酬関数からの行動選好の洞察は、個人が特定の活動系列から得られる有用性を示す。
関連論文リスト
- AI-Driven Day-to-Day Route Choice [15.934133434324755]
LLMTravelerは過去の経験から学び、検索したデータと性格特性のバランスをとることで意思決定を行うエージェントである。
本稿では,LLMTravelerが日常の混雑ゲーム2段階を通じて人間的な意思決定を再現する能力について,体系的に評価する。
この能力は、旅行者の新しいポリシーに対する反応やネットワークの変更をシミュレートするなど、交通政策立案に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-04T14:13:38Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。