論文の概要: IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs
- arxiv url: http://arxiv.org/abs/2605.10267v3
- Date: Wed, 13 May 2026 06:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.855353
- Title: IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs
- Title(参考訳): IndustryBench: LLMの産業知識境界を探る
- Authors: Songlin Bai, Xintong Wang, Linlin Yu, Bin Chen, Zhiang Xu, Yuyang Sheng, Changtong Zan, Xiaofeng Zhu, Yizhe Zhang, Jiru Li, Mingze Guo, Ling Zou, Yalong Li, Chengfu Huo, Liang Ding,
- Abstract要約: 我々は,中国における産業調達QAのための2,049石のベンチマークであるIndustrialBenchを紹介する。
本研究は,LLM生成候補の70.3%を探索に基づく外部検証段階において拒絶する。
我々の評価は、Qwen3-Max の判断により、ドメインの専門家に対して$_w = 0.798$で検証された生の正当性を分離する。
- 参考スコア(独自算出の注目度): 24.194078710555065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering. Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at $κ_w = 0.798$ against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions. Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.
- Abstract(参考訳): 産業調達において、LCMの回答は標準チェックを生き残る場合にのみ有用である:推奨材料は動作条件に適合し、全てのパラメータは規制された閾値を尊重し、いかなる手続きも安全条項に矛盾しない。
部分的正当性は、LCMベンチマークがほとんど捉えない安全クリティカルな矛盾を隠蔽することができる。
中国における工業調達QAの2,049石のベンチマークであるIndustrialBenchは、中国国家基準(GB/T)と構造化工業製品記録に基づいて、7つの能力ディメンション、10の産業カテゴリ、パネル由来の難易度階層で構成されており、項目対応の英語、ロシア語、ベトナム語レンダリングを備えている。
建設パイプラインはLLM生成候補の70.3%を検索ベース外部検証段階において拒絶し,LLMのみろ過後の産業用QAがいかに信頼できないかを評価する。
我々の評価は、Qwen3-Max の判断により、ドメインの専門家に対して$κ_w = 0.798$で検証された生の正当性を、ソーステキストに対する別個の安全違反(SV)チェックから分離する。
中国語で17のモデルと4つの言語で8つのモデルが交差していることがわかりました。
(i)最高のシステムは、0--3ルーブリックで2.083にしか達せず、実質的なヘッドルームを残している。
(二 基準及び用語は、最も永続的な能力の弱さであり、項目順翻訳を生き残ること。)
三 十三種中十二種の安全調整スコアを下げること。
(4)GPT-5.4はSV調整後6位から3位に上昇し、Kim-k2.5-1T-A32Bは7位に下がった。
したがって、産業用LCM評価には、集約精度ではなく、ソース・グラウンドド・セーフ・アウェアな診断が必要である。
すべてのプロンプト、スコアリングスクリプト、データセットドキュメンテーションを備えたIndustrialBenchをリリースします。
関連論文リスト
- DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules [4.124344125532972]
複雑な工業資産の監視は、センサーの条件に基づいて引き起こされるエンジニアによる象徴的な規則に依存している。
ルールをメンテナンスステップに変換するには、長年の実践を通じて得られた資産固有の知識が必要です。
このルール・ツー・アクション・ステップの意思決定支援としてLLMが有効か検討し,6,690名の専門家による複数選択質問をベンチマークした。
論文 参考訳(メタデータ) (2026-05-09T02:17:39Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - When Code Crosses Borders: A Security-Centric Evaluation of LLM-based Code Translation [19.602248745676544]
既存の評価は、主に機能レベルでの統語的または機能的正当性に注目し、セキュリティの重要な次元を無視している。
LLMに基づくコード翻訳のセキュリティへの影響を評価するために設計された最初のデータセットであるSTEDを構築した。
5つのプログラミング言語にまたがる720のセキュリティ関連コードサンプルと、CVE/NVDから派生した9つの高インパクトCWEカテゴリで構成されている。
論文 参考訳(メタデータ) (2025-09-08T10:08:48Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models [43.88239953205896]
Omni-SafetyBenchは、OLLMの安全性評価のための最初の総合的な並列ベンチマークである。
複雑なオムニモーダル入力によるOLLMの理解課題を考慮し,条件付き攻撃成功率(C-ASR)と拒絶率(C-RR)に基づく安全スコアを提案する。
Omni-SafetyBenchを用いて、既存の安全アライメントアルゴリズムを評価し、OLLMの安全性アライメントにおける重要な課題を特定した。
論文 参考訳(メタデータ) (2025-08-10T04:15:16Z) - SafeLawBench: Towards Safe Alignment of Large Language Models [18.035407356604832]
大きな言語モデル(LLM)の安全性を評価するための明確な基準が欠如している。
SafeLawBenchは、法的基準に基づいて、安全リスクを3つのレベルに分類する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
論文 参考訳(メタデータ) (2025-06-07T03:09:59Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection [66.05200339481115]
本稿では,産業異常検出における最初のフルスペクトルMLLMベンチマークであるMMADを提案する。
産業検査におけるMLLMの7つの重要なサブタスクを定義し,MMADデータセットを生成するための新しいパイプラインを設計した。
MMADを用いて,様々な最先端MLLMの包括的,定量的評価を行った。
論文 参考訳(メタデータ) (2024-10-12T09:16:09Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。