論文の概要: CSCBench: A PVC Diagnostic Benchmark for Commodity Supply Chain Reasoning
- arxiv url: http://arxiv.org/abs/2601.01825v1
- Date: Mon, 05 Jan 2026 06:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.785758
- Title: CSCBench: A PVC Diagnostic Benchmark for Commodity Supply Chain Reasoning
- Title(参考訳): CSCBench:商品サプライチェーン推論のためのPVC診断ベンチマーク
- Authors: Yaxin Cui, Yuanqiang Zeng, Jiapeng Yan, Keling Lin, Kai Ji, Jianhui Zeng, Sheng Zhang, Xin Luo, Binzhu Su, Chaolai Shen, Jiahao Yu,
- Abstract要約: LLM(Large Language Models)は、一般的なベンチマークにおいて顕著な成功を収めているが、商品サプライチェーンにおける彼らの能力は、まだ探索されていない。
CSC推論のための2.3K以上のシングルチョイスベンチマークであるCSCBenchを紹介します。
- 参考スコア(独自算出の注目度): 9.840374380176135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in general benchmarks, yet their competence in commodity supply chains (CSCs) -- a domain governed by institutional rule systems and feasibility constraints -- remains under-explored. CSC decisions are shaped jointly by process stages (e.g., planning, procurement, delivery), variety-specific rules (e.g., contract specifications and delivery grades), and reasoning depth (from retrieval to multi-step analysis and decision selection). We introduce CSCBench, a 2.3K+ single-choice benchmark for CSC reasoning, instantiated through our PVC 3D Evaluation Framework (Process, Variety, and Cognition). The Process axis aligns tasks with SCOR+Enable; the Variety axis operationalizes commodity-specific rule systems under coupled material-information-financial constraints, grounded in authoritative exchange guidebooks/rulebooks and industry reports; and the Cognition axis follows Bloom's revised taxonomy. Evaluating representative LLMs under a direct prompting setting, we observe strong performance on the Process and Cognition axes but substantial degradation on the Variety axis, especially on Freight Agreements. CSCBench provides a diagnostic yardstick for measuring and improving LLM capabilities in this high-stakes domain.
- Abstract(参考訳): LLM(Large Language Models)は、一般的なベンチマークにおいて顕著な成功を収めているが、商品サプライチェーン(CSC)の能力は、制度的なルールシステムと実現可能性の制約によって支配される領域である。
CSCの決定は、プロセス段階(プランニング、調達、納品など)、多彩なルール(契約仕様、納品基準など)、推論深度(検索から多段階分析、決定選択に至るまで)によって共同で形成されます。
CSC推論のための2.3K以上のシングルチョイスベンチマークであるCSCBenchは、当社のPVC 3D評価フレームワーク(Process, Variety, and Cognition)を通じてインスタンス化されています。
プロセス軸はタスクをSCOR+Enableと整列させ、バラエティ軸は物質・情報・財務上の制約が組み合わさった商品固有のルールシステムを運用し、権威ある交換ガイドブック/ルールブックと業界報告に基礎を置いており、認知軸はブルームの改訂された分類体系に従っている。
直接的プロンプト条件下でのLLMの評価では, プロセスと認知軸では強い性能を示すが, バラエティ軸, 特にウェイトアグリーメントでは著しく劣化する。
CSCBenchは、この高い領域におけるLCM機能の測定と改善のための診断用ヤードスティックを提供する。
関連論文リスト
- State-Augmented Graphs for Circular Economy Triage [2.7459577246953963]
循環経済(英: Circular economy, CE Triage)とは、製品が有用性に到達した後、どの持続可能な経路を辿るかを決定するための製品の評価である。
本稿では, 状態拡張型分解配列計画グラフ上での簡易決定論的解法として, 新たな意思決定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-17T16:23:47Z) - Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs [0.0]
本稿では,生産型RAGにおける推算ゲームについて述べる。
黄金のセットを構築し、監査するための標準化された再現可能な方法はありません。
Rath-gs (MIT) はプラケット=ルーシがリストワイドに改良したリーン・ゴールデンセットのパイプラインである。
論文 参考訳(メタデータ) (2025-11-12T18:49:21Z) - When Continuous Delivery Is Not an Option: Practical Paths to Continuous Engineering in Complex Organizations [0.41998444721319217]
継続的ソフトウェアエンジニアリングは、ソフトウェア集約組織における効率性、品質、応答性を改善することを約束します。
CSEを完全に採用することは、複雑な製品、レガシーシステム、組織慣性、規制要件によって制約されることが多い。
本稿では, 自動化, 自動車, 小売, 化学分野の4つの産業事例について検討し, その制約が実際にCSE導入にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2025-11-04T10:18:35Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation [1.7925692773093167]
CCRSは、ゼロショットでエンドツーエンドの裁判官として、単一の強力で事前訓練されたLLMを使用する5つのメトリクスからなる新しいスイートである。
CCRSを用いて6種類のRAGシステム構成を、挑戦的なBioASQデータセット上で評価する。
論文 参考訳(メタデータ) (2025-06-25T04:49:03Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - CSL: Class-Agnostic Structure-Constrained Learning for Segmentation
Including the Unseen [62.72636247006293]
クラス非依存構造制約学習(Class-Agnostic Structure-Constrained Learning)は、既存のメソッドと統合可能なプラグインフレームワークである。
OODオブジェクトセグメンテーションを強化するソフトアサインとマスク分割手法を提案する。
実証的な評価は、OODセグメンテーション、ZS3、DAセグメンテーションにまたがる既存のアルゴリズムの性能を向上させるCSLの進歩を示している。
論文 参考訳(メタデータ) (2023-12-09T11:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。