論文の概要: An Empirical Study on Large Language Models in Accuracy and Robustness
under Chinese Industrial Scenarios
- arxiv url: http://arxiv.org/abs/2402.01723v1
- Date: Sat, 27 Jan 2024 03:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:13:38.600478
- Title: An Empirical Study on Large Language Models in Accuracy and Robustness
under Chinese Industrial Scenarios
- Title(参考訳): 中国の産業シナリオにおける大規模言語モデルの精度とロバスト性に関する実証的研究
- Authors: Zongjie Li, Wenying Qiu, Pingchuan Ma, Yichen Li, You Li, Sijia He,
Baozheng Jiang, Shuai Wang, Weixi Gu
- Abstract要約: 大規模言語モデル(LLM)の将来の重要な応用の1つは、工業生産における実践的な展開である。
中国工業生産地域におけるLCMの精度とロバスト性に関する総合的な実証的研究を行った。
- 参考スコア(独自算出の注目度): 14.335979063157522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rapid development of large language models
(LLMs) in various domains. To better serve the large number of Chinese users,
many commercial vendors in China have adopted localization strategies, training
and providing local LLMs specifically customized for Chinese users.
Furthermore, looking ahead, one of the key future applications of LLMs will be
practical deployment in industrial production by enterprises and users in those
sectors. However, the accuracy and robustness of LLMs in industrial scenarios
have not been well studied. In this paper, we present a comprehensive empirical
study on the accuracy and robustness of LLMs in the context of the Chinese
industrial production area. We manually collected 1,200 domain-specific
problems from 8 different industrial sectors to evaluate LLM accuracy.
Furthermore, we designed a metamorphic testing framework containing four
industrial-specific stability categories with eight abilities, totaling 13,631
questions with variants to evaluate LLM robustness. In total, we evaluated 9
different LLMs developed by Chinese vendors, as well as four different LLMs
developed by global vendors. Our major findings include: (1) Current LLMs
exhibit low accuracy in Chinese industrial contexts, with all LLMs scoring less
than 0.6. (2) The robustness scores vary across industrial sectors, and local
LLMs overall perform worse than global ones. (3) LLM robustness differs
significantly across abilities. Global LLMs are more robust under
logical-related variants, while advanced local LLMs perform better on problems
related to understanding Chinese industrial terminology. Our study results
provide valuable guidance for understanding and promoting the industrial domain
capabilities of LLMs from both development and industrial enterprise
perspectives. The results further motivate possible research directions and
tooling support.
- Abstract(参考訳): 近年、様々な領域で大規模言語モデル(LLM)の急速な発展が見られた。
多数の中国人ユーザーにサービスを提供するため、中国の多くの商業ベンダーはローカライズ戦略を採用し、中国ユーザー向けに特別にカスタマイズされた現地のllmを提供している。
さらに、今後のLLMの重要応用の1つは、これらの分野における企業やユーザによる工業生産の実践的展開である。
しかし, 産業シナリオにおけるLCMの精度と堅牢性はよく研究されていない。
本稿では,中国の工業生産分野におけるLCMの精度とロバスト性に関する総合的な実証的研究について述べる。
LLMの精度を評価するため、8つの異なる産業セクターから1200のドメイン固有の問題を手作業で収集した。
さらに,LLMのロバスト性を評価するために,4つの産業固有の安定性カテゴリと8つの能力を含むメタモルフィックテストフレームワークを設計した。
総じて,中国のベンダーが開発する9種類のllmと,グローバルベンダーが開発する4種類のllmを評価した。
主な知見は,(1)中国の産業環境でのLLMの精度は低く,全LLMのスコアは0.6未満である。
2)ロバスト性スコアは産業部門によって異なり,地域全体のllmは世界規模よりも低い。
3) LLMの堅牢性は能力によって大きく異なる。
グローバル LLM は論理関連変種の下ではより堅牢であり、先進的なローカル LLM は中国の産業用語の理解に関わる問題に対してより良い性能を発揮する。
本研究は, LLMの産業領域能力の理解と促進に, 開発と産業の両面から重要なガイダンスを提供するものである。
この結果は、研究の方向性とツールのサポートをさらに動機付ける。
関連論文リスト
- OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety [37.07970624135514]
OpenEvalは、能力、アライメント、安全性にわたって中国のLLMをベンチマークする評価テストベッドである。
機能評価には,NLPタスク,ディシプリナリーナレッジ,コモンセンス推論,数学的推論という4つのサブディメンジョンから中国語LLMを評価するための12のベンチマークデータセットを含む。
アライメントアライメントアセスメントのために、OpenEvalには、中国のLLMが出力するバイアス、攻撃性、不正性を調べる7つのデータセットが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:21:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。