論文の概要: A Bayesian latent class reinforcement learning framework to capture adaptive, feedback-driven travel behaviour
- arxiv url: http://arxiv.org/abs/2512.14713v1
- Date: Mon, 08 Dec 2025 22:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.679981
- Title: A Bayesian latent class reinforcement learning framework to capture adaptive, feedback-driven travel behaviour
- Title(参考訳): 適応的・フィードバック駆動型旅行行動把握のためのベイズクラス強化学習フレームワーク
- Authors: Georges Sfeir, Stephane Hess, Thomas O. Hancock, Filipe Rodrigues, Jamal Amani Rad, Michiel Bliemer, Matthew Beck, Fayyaz Khan,
- Abstract要約: 運転シミュレータデータセットに潜在クラス強化学習モデルを適用する。
好みをどう順応するかに顕著に異なる3種類の個人を識別する。
- 参考スコア(独自算出の注目度): 3.4776811815615414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many travel decisions involve a degree of experience formation, where individuals learn their preferences over time. At the same time, there is extensive scope for heterogeneity across individual travellers, both in their underlying preferences and in how these evolve. The present paper puts forward a Latent Class Reinforcement Learning (LCRL) model that allows analysts to capture both of these phenomena. We apply the model to a driving simulator dataset and estimate the parameters through Variational Bayes. We identify three distinct classes of individuals that differ markedly in how they adapt their preferences: the first displays context-dependent preferences with context-specific exploitative tendencies; the second follows a persistent exploitative strategy regardless of context; and the third engages in an exploratory strategy combined with context-specific preferences.
- Abstract(参考訳): 多くの旅行決定には、個人が時間の経過とともに好みを学習する経験の形成が含まれる。
同時に、個々の旅行者間の不均一性には、その基本的嗜好とそれらがどのように進化するかの両方において広範な範囲がある。
本稿では,これらの現象を解析できる潜在クラス強化学習(LCRL)モデルを提案する。
このモデルを駆動シミュレーターデータセットに適用し、変動ベイズを用いてパラメーターを推定する。
第1は文脈依存的搾取傾向による文脈依存的嗜好を示し、第2は文脈によらず永続的な搾取戦略に従う、第3は文脈依存的嗜好と組み合わせた探索的戦略を行う。
関連論文リスト
- What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Integrating Response Time and Attention Duration in Bayesian Preference Learning for Multiple Criteria Decision Aiding [2.9457161327910693]
本稿では,意思決定支援のための行動規範を取り入れたベイズ選好学習フレームワークについて紹介する。
このフレームワークは、ペアワイズ比較、応答時間、注意期間を統合して、意思決定プロセスに関する洞察を深めます。
論文 参考訳(メタデータ) (2025-04-21T08:01:44Z) - AI-Driven Day-to-Day Route Choice [15.934133434324755]
LLMTravelerは過去の経験から学び、検索したデータと性格特性のバランスをとることで意思決定を行うエージェントである。
本稿では,LLMTravelerが日常の混雑ゲーム2段階を通じて人間的な意思決定を再現する能力について,体系的に評価する。
この能力は、旅行者の新しいポリシーに対する反応やネットワークの変更をシミュレートするなど、交通政策立案に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-04T14:13:38Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Improving Context-Aware Preference Modeling for Language Models [62.32080105403915]
本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2024-07-20T16:05:17Z) - Active Learning and Bayesian Optimization: a Unified Perspective to Learn with a Goal [0.0]
本稿では,適応サンプリング,アクティブラーニング,ベイズ最適化の膨大なファミリー間の類似点と相違点を明らかにするために,適応サンプリング手法の一般的な分類を提案する。
様々なベンチマーク問題に対するベイズスキームの性能を調査する学習基準を適用するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2023-03-02T20:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。