論文の概要: AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager
- arxiv url: http://arxiv.org/abs/2508.11416v1
- Date: Fri, 15 Aug 2025 11:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.937901
- Title: AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager
- Title(参考訳): AIM-Bench: インベントリマネージャとしてのエージェントLDMの意思決定バイアスの評価
- Authors: Xuhua Zhao, Yuxuan Xie, Caihua Chen, Yuxiang Sun,
- Abstract要約: AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 9.21215885702746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in mathematical reasoning and the long-term planning capabilities of large language models (LLMs) have precipitated the development of agents, which are being increasingly leveraged in business operations processes. Decision models to optimize inventory levels are one of the core elements of operations management. However, the capabilities of the LLM agent in making inventory decisions in uncertain contexts, as well as the decision-making biases (e.g. framing effect, etc.) of the agent, remain largely unexplored. This prompts concerns regarding the capacity of LLM agents to effectively address real-world problems, as well as the potential implications of biases that may be present. To address this gap, we introduce AIM-Bench, a novel benchmark designed to assess the decision-making behaviour of LLM agents in uncertain supply chain management scenarios through a diverse series of inventory replenishment experiments. Our results reveal that different LLMs typically exhibit varying degrees of decision bias that are similar to those observed in human beings. In addition, we explored strategies to mitigate the pull-to-centre effect and the bullwhip effect, namely cognitive reflection and implementation of information sharing. These findings underscore the need for careful consideration of the potential biases in deploying LLMs in Inventory decision-making scenarios. We hope that these insights will pave the way for mitigating human decision bias and developing human-centred decision support systems for supply chains.
- Abstract(参考訳): 大規模言語モデル(LLM)の数学的推論と長期計画能力の最近の進歩は,ビジネスオペレーションプロセスにおいてますます活用されているエージェントの開発を急進的に進めている。
在庫水準を最適化する決定モデルは、運用管理の中核的な要素の1つである。
しかし、LCMエージェントが不確実な状況下で在庫決定を行う能力や、エージェントの意思決定バイアス(例えばフレーミング効果など)は、まだ明らかにされていない。
このことは、LLMエージェントが現実世界の問題に効果的に対処する能力と、存在する可能性のあるバイアスの潜在的な影響に関する懸念を喚起する。
このギャップに対処するために,多種多様な在庫補充実験を通じて,不確実なサプライチェーン管理シナリオにおけるLCMエージェントの意思決定行動を評価するための新しいベンチマークであるAIM-Benchを紹介する。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
さらに,情報共有の認知的反映と実装という,プル・ツー・セントレ効果とブルウィップ効果を緩和する戦略についても検討した。
これらの知見は, 発明意思決定シナリオにおけるLCMの展開における潜在的なバイアスについて, 慎重に検討することの必要性を浮き彫りにした。
これらの洞察が、人間の意思決定バイアスを緩和し、サプライチェーンのための人間中心の意思決定支援システムを開発するための道を開くことを願っている。
関連論文リスト
- Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Rational Decision-Making Agent with Internalized Utility Judgment [88.01612847081677]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-24T03:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。