論文の概要: FactoryBench: Evaluating Industrial Machine Understanding
- arxiv url: http://arxiv.org/abs/2605.07675v1
- Date: Fri, 08 May 2026 12:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.047494
- Title: FactoryBench: Evaluating Industrial Machine Understanding
- Title(参考訳): FactoryBench: 産業機械の理解を評価する
- Authors: Yanis Merzouki, Coral Izquierdo, Matei Ignuta-Ciuncanu, Marcos Gomez-Bracamonte, Riccardo Maggioni, Alessandro Lombardi, Camilla Mazzoleni, Federico Martelli, Balazs Gunther, Jonas Petersen, Philipp Petersen,
- Abstract要約: 本研究では,産業用ロボットテレメトリ上での機械理解に関する時系列モデルとLLMを評価するためのベンチマークであるFactoryBenchを紹介する。
Q&Aペアは4つの因果レベル(国家、介入、反事実、決定)に沿って編成され、パールの因果関係のはしごがインスタンス化される。
UR3コボットとKUKA KR10産業用アームから収集した高密度マルチタスク多変量センサデータセットであるFactoryWaveを提案する。
- 参考スコア(独自算出の注目度): 31.09649163456258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FactoryBench, a benchmark for evaluating time-series models and LLMs on machine understanding over industrial robotic telemetry. Q&A pairs are organized along four causal levels (state, intervention, counterfactual, decision) instantiating Pearl's ladder of causation, and span five answer formats: four structured formats are scored deterministically and free-form answers are scored by an LLM-as-judge voting protocol. We propose a scalable Q&A generation framework built around structured question templates, present FactoryWave (a dense, multitask, multivariate sensor dataset collected from a UR3 cobot and a KUKA KR10 industrial arm), and construct FactoryBench as a large-scale benchmark of over 70k Q&A items grounded in roughly 15k normalized episodes from FactoryWave, AURSAD, and voraus-AD. Zero-shot evaluation of six frontier LLMs shows that no model exceeds 50% on structured levels or 18% on decision-making, revealing a wide gap between current models and operational machine understanding.
- Abstract(参考訳): 本研究では,産業用ロボットテレメトリ上での機械理解に関する時系列モデルとLLMを評価するためのベンチマークであるFactoryBenchを紹介する。
Q&Aペアは4つの因果レベル(状態、介入、反ファクト、決定)に沿って編成され、パールの因果関係のはしごをインスタンス化し、4つの構造化されたフォーマットが決定論的に、自由形式の回答はLLM-as-judge議定書によって決定される。
我々は、構造化された質問テンプレートを中心に構築されたスケーラブルなQ&A生成フレームワーク、ファクトリウェーブ(UR3コボットとKUKA KR10産業用アームから収集した多変量センサデータセット)、ファクトリベンチを、ファクトリウェーブ、AURSAD、Voraus-ADの約15kの正規化エピソードに基づいた70k以上のQ&A項目の大規模ベンチマークとして構築する。
6つのフロンティアLCMのゼロショット評価は、モデルが構造化レベルで50%以上、意思決定で18%を超えないことを示し、現在のモデルと運用機械の理解の間に大きなギャップがあることを明らかにしている。
関連論文リスト
- CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models [1.1140384738063094]
CAKEは、ブルームの改訂された分類学の4つの認知レベルに関する188人の専門家による検証された質問で構成されている。
マルチチョイス質問(MCQ)とフリーレスポンス(FR)のためのLCM-as-a-judgeスコア(FR)を併用した22種類のモデル構成の評価を行った。
論文 参考訳(メタデータ) (2026-04-07T11:56:43Z) - BenchBench: Benchmarking Automated Benchmark Generation [10.44497524694021]
BenchBenchは、自動ベンチマーク生成をベンチマークするためのパイプラインとデータセットである。
我々は16.7Kアイテムを生成し、15Kコアアイテムをポストフィルタに保持し、152Kグレードのモデル-イテム応答を生成する。
論文 参考訳(メタデータ) (2026-03-21T13:05:32Z) - M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection [87.27067827385599]
M3-ADは産業的異常検出のための統合リフレクション対応フレームワークである。
RA-Monitorは、初期判断が信頼できない場合に、制御された自己補正を行うようにモデルをガイドする。
論文 参考訳(メタデータ) (2026-02-10T07:20:19Z) - Self-Correction Distillation for Structured Data Question Answering [50.98882432829651]
小型言語モデル(LLM)は、構造化クエリの生成時にエラーを起こしやすい。
小型LCMの構造データQA能力を向上させるための自己補正蒸留(SCD)法を提案する。
論文 参考訳(メタデータ) (2025-11-11T09:01:51Z) - Retrieval-Augmented Multi-LLM Ensemble for Industrial Part Specification Extraction [0.0]
本稿では,9つの最先端大言語モデル(LLM)を編成する検索強化マルチLLMアンサンブルフレームワークを提案する。
RAGsembleは、Gemini (2.0, 2.5, 1.5)、OpenAI (GPT-4o, o4-mini)、Mistral Large、Gemma (1B, 4B, 3n-e4b)などのモデルファミリーの補完的な強みを組み合わせることで、単一モデルシステムの重要な制限に対処する。
論文 参考訳(メタデータ) (2025-11-08T14:43:20Z) - FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes [7.788259584005182]
本稿では,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介する。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-03T18:05:10Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。
我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。
本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T20:55:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。