論文の概要: Where You Go is Who You Are: Behavioral Theory-Guided LLMs for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17249v1
- Date: Thu, 22 May 2025 19:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.675199
- Title: Where You Go is Who You Are: Behavioral Theory-Guided LLMs for Inverse Reinforcement Learning
- Title(参考訳): 自分が誰なのか: 逆強化学習のための行動理論誘導LDM
- Authors: Yuran Sun, Susu Xu, Chenguang Wang, Xilei Zhao,
- Abstract要約: LLM誘導逆強化学習(IRL)と認知連鎖推論(CCR)を用いたソシオドモグラフィー推論のためのSILICを提案する。
CCRは、潜在行動意図を捉え、心理的構成を通して推論することで、観察されたモビリティパターンから社会デミノグラフィー特性を推測する。
提案手法は最先端のベースラインを著しく上回り,交通計画等における行動基盤型アプリケーションを支援するため,大規模軌跡データを充実させるという大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 4.345382237366071
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Big trajectory data hold great promise for human mobility analysis, but their utility is often constrained by the absence of critical traveler attributes, particularly sociodemographic information. While prior studies have explored predicting such attributes from mobility patterns, they often overlooked underlying cognitive mechanisms and exhibited low predictive accuracy. This study introduces SILIC, short for Sociodemographic Inference with LLM-guided Inverse Reinforcement Learning (IRL) and Cognitive Chain Reasoning (CCR), a theoretically grounded framework that leverages LLMs to infer sociodemographic attributes from observed mobility patterns by capturing latent behavioral intentions and reasoning through psychological constructs. Particularly, our approach explicitly follows the Theory of Planned Behavior (TPB), a foundational behavioral framework in transportation research, to model individuals' latent cognitive processes underlying travel decision-making. The LLMs further provide heuristic guidance to improve IRL reward function initialization and update by addressing its ill-posedness and optimization challenges arising from the vast and unstructured reward space. Evaluated in the 2017 Puget Sound Regional Council Household Travel Survey, our method substantially outperforms state-of-the-art baselines and shows great promise for enriching big trajectory data to support more behaviorally grounded applications in transportation planning and beyond.
- Abstract(参考訳): 大きな軌道データは人間の移動分析に大きな可能性を秘めているが、その有用性は重要な旅行者属性、特に社会デマグラフィー情報の欠如によって制約されることが多い。
以前の研究では、モビリティパターンからそのような特性を予測することを検討したが、基礎となる認知メカニズムを見落とし、予測精度が低いことがしばしばあった。
本研究では,LCMを用いた逆強化学習(IRL)と認知連鎖推論(CCR)によるソシオデモグラフィ推論(SILIC)について紹介する。
特に,旅行意思決定の基盤となる個人認知過程をモデル化するために,交通研究の基本的行動枠組みである計画行動理論(TPB)に従っている。
LLMはさらに、IRL報酬関数の初期化と更新を改善するためのヒューリスティックガイダンスを提供している。
2017年のピュージェット・サウンド・カウンシル・ハウス・トラベリング・サーベイ(Puget Sound Regional Council Household Travel Survey)で評価され、当社の手法は最先端のベースラインを大幅に上回っており、交通計画等におけるより行動に根ざしたアプリケーションを支援するために、大きな軌跡データを充実させるという大きな約束を示している。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。
近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。
本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文 参考訳(メタデータ) (2024-10-20T07:22:23Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Large Language Models for Spatial Trajectory Patterns Mining [9.70298494476926]
大型言語モデル(LLM)は、人間に似た方法で推論する能力を示した。
このことは、人間の移動における時間的パターンを解析する大きな可能性を示唆している。
我々の研究は、人間の空間的軌跡解析のためのLSMの強度と限界についての洞察を提供する。
論文 参考訳(メタデータ) (2023-10-07T23:21:29Z) - Predicting Human Mobility via Self-supervised Disentanglement Learning [21.61423193132924]
本稿では,次のPOI予測問題に対処するため,SSDLと呼ばれる新しい解を提案する。
本研究では,人間の本質的な周期性と常に変化する意図の理解を高めるために,二つの現実的な軌道拡張手法を提案する。
4つの実世界のデータセットで実施された大規模な実験により、提案したSSDLは最先端のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-11-17T16:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。