論文の概要: Validating Generative Agent-Based Models for Logistics and Supply Chain Management Research
- arxiv url: http://arxiv.org/abs/2508.20234v1
- Date: Wed, 27 Aug 2025 19:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.769011
- Title: Validating Generative Agent-Based Models for Logistics and Supply Chain Management Research
- Title(参考訳): ロジスティックスとサプライチェーン管理研究のための生成エージェントベースモデルの検証
- Authors: Vincent E. Castillo,
- Abstract要約: 大規模言語モデル(LLM)を利用したGABM(Generative Agent-Based Models)は、経験的ロジスティクスとサプライチェーン管理(LSCM)研究に有望な可能性を提供する。
本研究は、食品デリバリーシナリオにおける顧客-労働者の関与を制御した実験により、人間の行動のLLM同値性を評価する。
その結果、GABMはLSCMの人間の行動を効果的にシミュレートできることがわかったが、等価逆プロセスパラドックスが出現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Agent-Based Models (GABMs) powered by large language models (LLMs) offer promising potential for empirical logistics and supply chain management (LSCM) research by enabling realistic simulation of complex human behaviors. Unlike traditional agent-based models, GABMs generate human-like responses through natural language reasoning, which creates potential for new perspectives on emergent LSCM phenomena. However, the validity of LLMs as proxies for human behavior in LSCM simulations is unknown. This study evaluates LLM equivalence of human behavior through a controlled experiment examining dyadic customer-worker engagements in food delivery scenarios. I test six state-of-the-art LLMs against 957 human participants (477 dyads) using a moderated mediation design. This study reveals a need to validate GABMs on two levels: (1) human equivalence testing, and (2) decision process validation. Results reveal GABMs can effectively simulate human behaviors in LSCM; however, an equivalence-versus-process paradox emerges. While a series of Two One-Sided Tests (TOST) for equivalence reveals some LLMs demonstrate surface-level equivalence to humans, structural equation modeling (SEM) reveals artificial decision processes not present in human participants for some LLMs. These findings show GABMs as a potentially viable methodological instrument in LSCM with proper validation checks. The dual-validation framework also provides LSCM researchers with a guide to rigorous GABM development. For practitioners, this study offers evidence-based assessment for LLM selection for operational tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したGABM(Generative Agent-Based Models)は、複雑な人間の行動の現実的なシミュレーションを可能にし、経験的ロジスティクスとサプライチェーン管理(LSCM)の研究に有望な可能性を提供する。
従来のエージェントベースモデルとは異なり、GABMは自然言語推論を通じて人間のような反応を発生させる。
しかし,LSCMシミュレーションにおける人間行動のプロキシとしてのLSMの有効性は不明である。
本研究は、食品デリバリーシナリオにおける顧客-労働者の関与を制御した実験により、人間の行動のLLM同値性を評価する。
私は、適度なメディエーション設計を用いて、957人の参加者(477ダイアド)に対して最先端の6つのLSMをテストしました。
本研究は,(1)ヒト同値試験と(2)意思決定プロセス検証の2つのレベルにおいてGABMを検証する必要性を明らかにする。
その結果、GABMはLSCMの人間の行動を効果的にシミュレートできることがわかったが、等価逆プロセスパラドックスが出現する。
等価性を示す2つの1つのテスト (TOST) のシリーズでは、いくつかのLLMが人間に表面レベルの等価性を示す一方で、構造方程式モデリング (SEM) では、一部のLLMの参加者には存在しない人工的な決定過程が明らかにされている。
これらの結果から, GABMはLSCMにおいて適切な妥当性検査を行う上で, 有効な方法である可能性が示唆された。
デュアルバリデーションフレームワークは、LSCM研究者に厳格なGABM開発ガイドを提供する。
本研究は,手術作業におけるLCM選択に対するエビデンスに基づく評価を提供する。
関連論文リスト
- 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation [5.4260854377259315]
そこで我々は,LLMを模擬したQuality Controlアセスメントを提案する。
この評価は2つの重要なテストから成っている。
どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
論文 参考訳(メタデータ) (2025-04-11T20:16:02Z) - Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。
本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Large Language Models as Subpopulation Representative Models: A Review [5.439020425819001]
大言語モデル(LLM)は、サブポピュレーション代表モデル(SRM)を推定するために用いられる。
LLMは、人口統計、地理的、政治的セグメント間の世論を測る代替的あるいは補完的な手段を提供することができる。
論文 参考訳(メタデータ) (2023-10-27T04:31:27Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。