論文の概要: Reliability and Effectiveness of Autonomous AI Agents in Supply Chain Management
- arxiv url: http://arxiv.org/abs/2605.17036v1
- Date: Sat, 16 May 2026 15:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.505253
- Title: Reliability and Effectiveness of Autonomous AI Agents in Supply Chain Management
- Title(参考訳): サプライチェーン管理における自律型AIエージェントの信頼性と有効性
- Authors: Carol Xuan Long, David Simchi-Levi, Feng Zhu, Huangyuan Su, Andre P. Calmon, Flavio P. Calmon,
- Abstract要約: 本稿では,MIT Beer Game を用いたマルチエキロンサプライチェーンにおける自律生成型AIエージェントについて検討する。
モデル選択、ポリシーとガードレール、集中型データ共有、迅速なエンジニアリングという、パフォーマンスを形成する4つの推論時レバーを特定します。
- 参考スコア(独自算出の注目度): 15.19525853427301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies autonomous generative AI agents in multi-echelon supply chains using the MIT Beer Game. We identify four inference-time levers that shape performance: model selection, policies and guardrails, centralized data sharing, and prompt engineering. Model capability is the dominant factor: an out-of-the-box reasoning model exceeds human-level performance, and optimized reasoning models reduce costs by up to 67% relative to human teams. However, strong average performance masks substantial reliability risks. We introduce the agent bullwhip effect, the amplification of decision unreliability across echelons, manifesting along two dimensions: decision variance increases both across facilities at the same point in time and within the same facility across time. We develop a mathematical framework showing that this phenomenon is inherent to multi-agent systems that involve coordination and information delays, and we demonstrate that repeated sampling fails to meaningfully reduce it. To address this limitation, we propose a Group Relative Policy Optimization (GRPO)-based reinforcement-learning post-training framework that trains a shared base LLM using system-level supply-chain rewards. GRPO post-training substantially reduces tail events, curtails agent bullwhip, and improves the reliability of autonomous supply-chain agents.
- Abstract(参考訳): 本稿では,MIT Beer Game を用いたマルチエキロンサプライチェーンにおける自律生成型AIエージェントについて検討する。
モデル選択、ポリシーとガードレール、集中型データ共有、迅速なエンジニアリングという、パフォーマンスを形成する4つの推論時レバーを特定します。
アウト・オブ・ボックスの推論モデルは人間レベルのパフォーマンスを超え、最適化された推論モデルは人間チームと比較してコストを最大67%削減します。
しかし、強い平均的なパフォーマンスマスクは、かなりの信頼性のリスクを被る。
エージェントブルウィップ効果,エキロン間の決定不確実性の増幅,および2つの次元に沿って示す: 決定の分散は,同時に,同時に,同時に,同時に,同じ施設内でも増加する。
我々は,この現象が協調や情報遅延を伴うマルチエージェントシステムに固有のものであることを示す数学的枠組みを開発し,繰り返しサンプリングが有意に減少しないことを示す。
この制限に対処するために,システムレベルのサプライチェーン報酬を用いて共有ベースLLMをトレーニングするグループ相対政策最適化(GRPO)に基づく強化後学習フレームワークを提案する。
GRPOポストトレーニングは、テールイベントを大幅に減らし、エージェントブルウィップを削減し、自律的なサプライチェーンエージェントの信頼性を向上させる。
関連論文リスト
- AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents [37.232397795331444]
我々は,エージェント実行中に異なる推論能力を持つモデルを動的にコーディネートする,自己駆動型協調推論フレームワークであるAgenCollabを提案する。
外部ルーティングモジュールに頼る代わりに、このフレームワークはエージェント自身の自己反射信号を使用して、現在の推論軌道が有意義な進歩を遂げているかどうかを判断する。
論文 参考訳(メタデータ) (2026-03-27T03:07:34Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Multi-Agent Conditional Diffusion Model with Mean Field Communication as Wireless Resource Allocation Planner [16.759740918605768]
無線通信システムでは、QoS(Quality of Service)の強化において、効率的かつ適応的なリソース割り当てが重要な役割を担っている。
対照的に、分散トレーニングと分散実行(DTDE)パラダイムは、分散学習と意思決定を可能にする。
分散通信資源管理のためのマルチエージェント条件拡散モデルプランナ(MACDMP)を提案する。
論文 参考訳(メタデータ) (2025-10-27T03:42:18Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Symbiotic Agents: A Novel Paradigm for Trustworthy AGI-driven Networks [1.5684305805304426]
大規模言語モデル(LLM)に基づく自律エージェントは、6Gネットワークの進化において重要な役割を果たすことが期待されている。
我々は、LLMのリアルタイム最適化アルゴリズムをTrustworthy AIに組み合わせた新しいエージェントパラダイムを導入する。
本稿では,AGIネットワークのエンドツーエンドアーキテクチャを提案し,移動車からのチャネル変動をキャプチャする5Gテストベッド上で評価する。
論文 参考訳(メタデータ) (2025-07-23T17:01:23Z) - Efficient Beam Selection for ISAC in Cell-Free Massive MIMO via Digital Twin-Assisted Deep Reinforcement Learning [37.540612510652174]
我々は、誤報率制約の下で複数の受信APに対して共同目標検出確率の分布を導出する。
次に、マルコフ決定過程(MDP)としてビーム選択手順を定式化する。
リアルタイムエージェント環境相互作用の高コスト化とそれに伴うリスクを解消するために,新しいディジタルツイン(DT)支援オフラインDRL手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T12:17:57Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。