論文の概要: QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation
- arxiv url: http://arxiv.org/abs/2505.05225v1
- Date: Thu, 08 May 2025 13:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.894664
- Title: QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation
- Title(参考訳): QualBench: 垂直ドメイン評価のためのローカルなプロフェッショナル資格付き中国のLLMのベンチマーク
- Authors: Mengze Hong, Wailing Ng, Di Jiang, Chen Jason Zhang,
- Abstract要約: 我々は,中国のLLMのローカライズドアセスメントに特化した,最初のマルチドメイン中国語QAベンチマークQualBenchを紹介する。
データセットには6つの垂直領域にわたる17,000以上の質問が含まれている。
75.26%の最高のパフォーマンスは、モデル機能における現在のドメインカバレッジのギャップを示している。
- 参考スコア(独自算出の注目度): 8.937198801202442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Chinese large language models (LLMs) underscores the need for domain-specific evaluations to ensure reliable applications. However, existing benchmarks often lack coverage in vertical domains and offer limited insights into the Chinese working context. Leveraging qualification exams as a unified framework for human expertise evaluation, we introduce QualBench, the first multi-domain Chinese QA benchmark dedicated to localized assessment of Chinese LLMs. The dataset includes over 17,000 questions across six vertical domains, with data selections grounded in 24 Chinese qualifications to closely align with national policies and working standards. Through comprehensive evaluation, the Qwen2.5 model outperformed the more advanced GPT-4o, with Chinese LLMs consistently surpassing non-Chinese models, highlighting the importance of localized domain knowledge in meeting qualification requirements. The best performance of 75.26% reveals the current gaps in domain coverage within model capabilities. Furthermore, we present the failure of LLM collaboration with crowdsourcing mechanisms and suggest the opportunities for multi-domain RAG knowledge enhancement and vertical domain LLM training with Federated Learning.
- Abstract(参考訳): 中国の大規模言語モデル(LLM)の急速な進歩は、信頼性の高いアプリケーションを保証するために、ドメイン固有の評価の必要性を浮き彫りにしている。
しかし、既存のベンチマークは、しばしば垂直領域のカバレッジを欠き、中国の作業状況に関する限られた洞察を提供する。
人間の専門性評価のための統一的な枠組みとしての資格試験を活用し,中国におけるLLMのローカライズドアセスメントに特化した,最初のマルチドメイン中国語QAベンチマークQualBenchを紹介する。
データセットには、6つの垂直領域にわたる17,000以上の質問が含まれている。
包括的評価により、Qwen2.5モデルはより先進的なGPT-4oよりも優れ、中国のLLMは中国以外のモデルを一貫して上回り、認定要件を満たす上での局所的なドメイン知識の重要性を強調した。
75.26%の最高のパフォーマンスは、モデル機能における現在のドメインカバレッジのギャップを示している。
さらに,クラウドソーシング機構を用いたLLMコラボレーションの失敗を報告し,フェデレートラーニングによるマルチドメインRAG知識向上と垂直ドメインLLMトレーニングの機会を提案する。
関連論文リスト
- MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety [37.07970624135514]
OpenEvalは、能力、アライメント、安全性にわたって中国のLLMをベンチマークする評価テストベッドである。
機能評価には,NLPタスク,ディシプリナリーナレッジ,コモンセンス推論,数学的推論という4つのサブディメンジョンから中国語LLMを評価するための12のベンチマークデータセットを含む。
アライメントアライメントアセスメントのために、OpenEvalには、中国のLLMが出力するバイアス、攻撃性、不正性を調べる7つのデータセットが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:21:37Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。