論文の概要: AI Agents for Inventory Control: Human-LLM-OR Complementarity
- arxiv url: http://arxiv.org/abs/2602.12631v1
- Date: Fri, 13 Feb 2026 05:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.856285
- Title: AI Agents for Inventory Control: Human-LLM-OR Complementarity
- Title(参考訳): AI Agents for Inventory Control: Human-LLM-OR Complementarity
- Authors: Jackie Baek, Yaopeng Fu, Will Ma, Tianyi Peng,
- Abstract要約: 大規模言語モデル(LLM)は、柔軟に推論し、リッチなコンテキストシグナルを組み込むことができるAIエージェントへの関心を生んでいる。
我々は, ORアルゴリズム, LLM, 人間がどのように相互作用し, 相互に補完するかを, 多周期在庫管理設定で検討する。
平均して、人間とAIのチームは、人間またはAIエージェントが単独で運営するよりも高い利益を得る。
- 参考スコア(独自算出の注目度): 12.448705668487852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inventory control is a fundamental operations problem in which ordering decisions are traditionally guided by theoretically grounded operations research (OR) algorithms. However, such algorithms often rely on rigid modeling assumptions and can perform poorly when demand distributions shift or relevant contextual information is unavailable. Recent advances in large language models (LLMs) have generated interest in AI agents that can reason flexibly and incorporate rich contextual signals, but it remains unclear how best to incorporate LLM-based methods into traditional decision-making pipelines. We study how OR algorithms, LLMs, and humans can interact and complement each other in a multi-period inventory control setting. We construct InventoryBench, a benchmark of over 1,000 inventory instances spanning both synthetic and real-world demand data, designed to stress-test decision rules under demand shifts, seasonality, and uncertain lead times. Through this benchmark, we find that OR-augmented LLM methods outperform either method in isolation, suggesting that these methods are complementary rather than substitutes. We further investigate the role of humans through a controlled classroom experiment that embeds LLM recommendations into a human-in-the-loop decision pipeline. Contrary to prior findings that human-AI collaboration can degrade performance, we show that, on average, human-AI teams achieve higher profits than either humans or AI agents operating alone. Beyond this population-level finding, we formalize an individual-level complementarity effect and derive a distribution-free lower bound on the fraction of individuals who benefit from AI collaboration; empirically, we find this fraction to be substantial.
- Abstract(参考訳): 在庫管理は、伝統的に順序決定が理論的に基礎付けられた運用研究(OR)アルゴリズムによって導かれる基本的な運用問題である。
しかし、そのようなアルゴリズムはしばしば厳密なモデリングの仮定に依存しており、需要分布のシフトや関連するコンテキスト情報が利用できない場合、性能は低下する。
大規模言語モデル(LLM)の最近の進歩は、柔軟に推論し、リッチなコンテキストシグナルを組み込むことができるAIエージェントへの関心を生んでいるが、従来の意思決定パイプラインにLLMベースの手法を組み込むのがいかに良いかは、まだ分かっていない。
我々は, ORアルゴリズム, LLM, 人間がどのように相互作用し, 相互に補完するかを, 多周期在庫管理設定で検討する。
私たちは、需要シフト、季節性、不確実なリードタイムの下で意思決定ルールをストレステストするために設計された、合成および実世界の需要データにまたがる1000以上のインベントリインスタンスのベンチマークであるInventoryBenchを構築します。
このベンチマークにより,ORを拡張したLLM法は,いずれの手法よりも優れており,これらの手法は代用法よりも相補的であることが示唆された。
さらに,LLMレコメンデーションをループ内決定パイプラインに組み込む制御された教室実験を通じて,人間の役割について検討する。
人間とAIのコラボレーションがパフォーマンスを低下させるという以前の発見とは対照的に、人間とAIのチームは平均して、人間またはAIエージェントが単独で運営するよりも高い利益を得られることを示す。
この集団レベルの発見以外にも、個々のレベルの相補性効果を形式化し、AIコラボレーションの恩恵を受ける少数の個人に対して、分布のない低い境界を導出します。
関連論文リスト
- Ask, Clarify, Optimize: Human-LLM Agent Collaboration for Smarter Inventory Control [11.796330722859574]
エンド・ツー・エンドの問題解決者としてのLLMの導入は,有意義な「ハロシン化税」を課していることを示す。
本稿では,数学的計算から意味論的推論を厳密に分離するハイブリッドエージェントフレームワークを提案する。
本研究は, LLMを, 厳密な解法ベースのポリシーを非専門家に利用できるようにする自然言語インタフェースとして位置づけた。
論文 参考訳(メタデータ) (2025-12-31T21:45:54Z) - Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。
外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。
CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文 参考訳(メタデータ) (2025-12-17T05:11:58Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments [5.1382713576243955]
大規模言語モデル(LLM)は、シーケンシャルな意思決定設定で人間の振る舞いをシミュレートしたり、自動化したりするために、ますます使われている。
我々は、不確実性の下での動的意思決定の基本的な側面である、探査・探索(E&E)トレードオフに焦点を当てる。
LLMにおける思考を可能にすることは、ランダムな探索と指向的な探索の混合によって特徴付けられる、より人間的な行動へと行動を変える。
論文 参考訳(メタデータ) (2025-05-15T02:09:18Z) - Human aversion? Do AI Agents Judge Identity More Harshly Than Performance [0.06554326244334868]
我々は,大規模言語モデルに基づくAIエージェントがどのように人間の入力を評価し,統合するかを検討する。
AIシステムは人間のアドバイスを体系的に減らし、アルゴリズムの誤りよりも人間の誤りを厳しく罰する。
論文 参考訳(メタデータ) (2025-03-31T02:05:27Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。