論文の概要: LLM-Guided Reinforcement Learning with Representative Agents for Traffic Modeling
- arxiv url: http://arxiv.org/abs/2511.06260v1
- Date: Sun, 09 Nov 2025 07:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.846387
- Title: LLM-Guided Reinforcement Learning with Representative Agents for Traffic Modeling
- Title(参考訳): 交通モデリングのための代表エージェントを用いたLLM誘導強化学習
- Authors: Hanlin Sun, Jiayang Li,
- Abstract要約: 大規模言語モデル(LLM)は、エージェントベースの交通モデルにおける自己関心の旅行者のための行動プロキシとして、ますます使われている。
我々は,同じ意思決定状況に直面する各同種旅行者グループを,単一の代表的LLMエージェントでモデル化することを提案する。
提案手法はユーザ均衡に急速に収束する。
- 参考スコア(独自算出の注目度): 2.8077601586229908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as behavioral proxies for self-interested travelers in agent-based traffic models. Although more flexible and generalizable than conventional models, the practical use of these approaches remains limited by scalability due to the cost of calling one LLM for every traveler. Moreover, it has been found that LLM agents often make opaque choices and produce unstable day-to-day dynamics. To address these challenges, we propose to model each homogeneous traveler group facing the same decision context with a single representative LLM agent who behaves like the population's average, maintaining and updating a mixed strategy over routes that coincides with the group's aggregate flow proportions. Each day, the LLM reviews the travel experience and flags routes with positive reinforcement that they hope to use more often, and an interpretable update rule then converts this judgment into strategy adjustments using a tunable (progressively decaying) step size. The representative-agent design improves scalability, while the separation of reasoning from updating clarifies the decision logic while stabilizing learning. In classic traffic assignment settings, we find that the proposed approach converges rapidly to the user equilibrium. In richer settings with income heterogeneity, multi-criteria costs, and multi-modal choices, the generated dynamics remain stable and interpretable, reproducing plausible behavioral patterns well-documented in psychology and economics, for example, the decoy effect in toll versus non-toll road selection, and higher willingness-to-pay for convenience among higher-income travelers when choosing between driving, transit, and park-and-ride options.
- Abstract(参考訳): 大規模言語モデル(LLM)は、エージェントベースの交通モデルにおける自己関心の旅行者のための行動プロキシとして、ますます使われている。
従来のモデルよりも柔軟で汎用性が高いが、旅行者一人一人に1つのLSMを呼び出すコストのため、これらのアプローチの実用的利用はスケーラビリティによって制限されている。
さらに, LLM エージェントは不透明な選択をし, 日常の不安定なダイナミクスを生み出すことが多い。
これらの課題に対処するために、各同種旅行者集団を、人口平均のように振る舞う1人の代表的LCMエージェントでモデル化し、集団の総流量比と一致する経路に対する混合戦略を維持・更新することを提案する。
LLMは毎日、旅行経験とフラグのルートを、より頻繁に使用したいと願う肯定的な強化でレビューし、解釈可能な更新ルールにより、この判断を調整可能な(進行的に崩壊する)ステップサイズを使用して戦略調整に変換する。
代表者設計はスケーラビリティを向上し、推論と更新の分離は学習の安定化を図りながら決定論理を明確にする。
古典的なトラフィック割り当て設定では,提案手法はユーザ平衡に急速に収束する。
所得不均一性、多基準コスト、マルチモーダル選択によるよりリッチな設定では、生成されたダイナミクスは安定し、解釈可能であり、例えば、料金対有料道路選択におけるデコイ効果や、運転、移動、パーク・アンド・ライドの選択肢を選択する際の高所得旅行者の利便性向上など、心理学や経済学でよく文書化されているプラウシブルな行動パターンを再現する。
関連論文リスト
- SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Addressing the alignment problem in transportation policy making: an LLM approach [0.3499870393443268]
交通計画における重要な課題は、異種旅行者の集団的嗜好が、モデル駆動型意思決定ツールによって生み出される方針からしばしば分かれることである。
本稿では,大規模言語モデル(LLM)がこのアライメント問題に対処するのに有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-10-15T04:36:38Z) - Synthesizing Attitudes, Predicting Actions (SAPA): Behavioral Theory-Guided LLMs for Ridesourcing Mode Choice Modeling [4.901179513819295]
既存の配車モードの選択予測モデルでは、重要な心理的要因を捉えることができないため、予測精度が制限されている場合が多い。
本稿では,理論に基づく潜在態度を合成するために,SAPA(Synthesizing Attitudes, Predicting Actions)フレームワークを紹介する。
大規模・多年にわたる旅行調査の実験では、SAPAは最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-09-18T01:52:27Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Multi-residual Mixture of Experts Learning for Cooperative Control in Multi-vehicle Systems [5.5597941107270215]
ラグランジアン交通制御のためのMRMEL(Multi-Residual Mixture of Expert Learning)を提案する。
MRMELは、残留補正を学習することで、最適でない名目AV制御ポリシーを強化する。
アトランタ, ダラスフォートワース, ソルトレイクシティの信号化交差点における協調的エコドライブのケーススタディを用いて, MRMELの検証を行った。
論文 参考訳(メタデータ) (2025-07-14T00:17:12Z) - Aligning LLM with human travel choices: a persona-based embedding learning approach [15.11130742093296]
本稿では,大規模言語モデルと人間の旅行選択行動の整合性を示す新しい枠組みを提案する。
我々のフレームワークは、パーソナ推論とロードプロセスを使用して、アライメントを強化するのに適したプロンプトでLLMを条件付けします。
論文 参考訳(メタデータ) (2025-05-25T06:54:01Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - AI-Driven Day-to-Day Route Choice [15.934133434324755]
LLMTravelerは過去の経験から学び、検索したデータと性格特性のバランスをとることで意思決定を行うエージェントである。
本稿では,LLMTravelerが日常の混雑ゲーム2段階を通じて人間的な意思決定を再現する能力について,体系的に評価する。
この能力は、旅行者の新しいポリシーに対する反応やネットワークの変更をシミュレートするなど、交通政策立案に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-04T14:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。