論文の概要: SupChain-Bench: Benchmarking Large Language Models for Real-World Supply Chain Management
- arxiv url: http://arxiv.org/abs/2602.07342v1
- Date: Sat, 07 Feb 2026 03:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.576941
- Title: SupChain-Bench: Benchmarking Large Language Models for Real-World Supply Chain Management
- Title(参考訳): SupChain-Bench: リアルタイムサプライチェーン管理のための大規模言語モデルのベンチマーク
- Authors: Shengyue Guan, Yihao Liu, Lang Cao,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論とツールベースの意思決定において有望であることを示している。
サプライチェーンは、ドメイン固有の手順に基づいて、信頼性の高い長期的マルチステップオーケストレーションを必要とする。
我々の研究は、実世界の運用環境での信頼性の高い長期オーケストレーションを研究するための、原則化されたベンチマークを確立する。
- 参考スコア(独自算出の注目度): 5.875908074909447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown promise in complex reasoning and tool-based decision making, motivating their application to real-world supply chain management. However, supply chain workflows require reliable long-horizon, multi-step orchestration grounded in domain-specific procedures, which remains challenging for current models. To systematically evaluate LLM performance in this setting, we introduce SupChain-Bench, a unified real-world benchmark that assesses both supply chain domain knowledge and long-horizon tool-based orchestration grounded in standard operating procedures (SOPs). Our experiments reveal substantial gaps in execution reliability across models. We further propose SupChain-ReAct, an SOP-free framework that autonomously synthesizes executable procedures for tool use, achieving the strongest and most consistent tool-calling performance. Our work establishes a principled benchmark for studying reliable long-horizon orchestration in real-world operational settings and highlights significant room for improvement in LLM-based supply chain agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な推論とツールベースの意思決定において、彼らのアプリケーションを現実世界のサプライチェーン管理に動機付けている。
しかし、サプライチェーンのワークフローには、ドメイン固有のプロシージャを基盤とした、信頼性の高い長期的マルチステップオーケストレーションが必要であり、現在のモデルでは依然として困難である。
この設定でLLMの性能を体系的に評価するために,SupChain-Benchという,サプライチェーンのドメイン知識と,標準動作手順(SOP)に基づく長期ツールベースのオーケストレーションの両方を評価する,一貫した実世界のベンチマークを導入する。
実験の結果, モデル間での実行信頼性が著しく低下していることが判明した。
さらに,SupChain-ReActを提案する。SOPフリーフレームワークは,ツール使用のための実行手順を自律的に合成し,最強かつ一貫したツール呼び出し性能を実現する。
本研究は,LLMをベースとしたサプライチェーンエージェントの信頼性向上のために,実運用環境における信頼性の高い長期オーケストレーションの標準的評価基準を確立した。
関連論文リスト
- Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models [18.500046072165254]
我々は、生成過程を監督する新しい自己進化フレームワークであるStepORLMを紹介する。
StepORLMの中核となるのは、ポリシーモデルと生成プロセス報酬モデル(GenPRM)が相互に反復的に改善される、共進化ループである。
論文 参考訳(メタデータ) (2025-09-26T16:39:10Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。