論文の概要: INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
- arxiv url: http://arxiv.org/abs/2509.04455v1
- Date: Wed, 27 Aug 2025 03:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.872958
- Title: INSEva: A Comprehensive Chinese Benchmark for Large Language Models in Insurance
- Title(参考訳): インセバ:保険における大規模言語モデルのための総合的な中国のベンチマーク
- Authors: Shisong Chen, Qian Zhu, Wenyan Yang, Chengyi Yang, Zhong Wang, Ping Wang, Xuan Lin, Bo Xu, Daqian Li, Chao Yuan, Licai Qi, Wanqing Xu, sun zhenxing, Xin Lu, Shiqiang Xiong, Chao Chen, Haixiang Hu, Yanghua Xiao,
- Abstract要約: INSEvaは、保険におけるAIシステムの知識と能力を評価するために設計された中国のベンチマークである。
INSEvaは、ビジネス領域、タスクフォーマット、難易度、認知知識次元をカバーする多次元評価分類を特徴としている。
本ベンチマークでは,オープンエンド応答における忠実度と完全度の両方を評価するための調整された評価手法を実装した。
- 参考スコア(独自算出の注目度): 48.22571187209047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Insurance, as a critical component of the global financial system, demands high standards of accuracy and reliability in AI applications. While existing benchmarks evaluate AI capabilities across various domains, they often fail to capture the unique characteristics and requirements of the insurance domain. To address this gap, we present INSEva, a comprehensive Chinese benchmark specifically designed for evaluating AI systems' knowledge and capabilities in insurance. INSEva features a multi-dimensional evaluation taxonomy covering business areas, task formats, difficulty levels, and cognitive-knowledge dimension, comprising 38,704 high-quality evaluation examples sourced from authoritative materials. Our benchmark implements tailored evaluation methods for assessing both faithfulness and completeness in open-ended responses. Through extensive evaluation of 8 state-of-the-art Large Language Models (LLMs), we identify significant performance variations across different dimensions. While general LLMs demonstrate basic insurance domain competency with average scores above 80, substantial gaps remain in handling complex, real-world insurance scenarios. The benchmark will be public soon.
- Abstract(参考訳): 保険は、グローバル金融システムの重要なコンポーネントとして、AIアプリケーションにおいて高い精度と信頼性の基準を要求する。
既存のベンチマークでは、さまざまなドメインにわたるAI機能を評価するが、保険ドメインのユニークな特性と要件をキャプチャできないことが多い。
このギャップに対処するため、保険におけるAIシステムの知識と能力を評価するために特別に設計された、包括的な中国のベンチマークであるINSEvaを提示する。
INSEvaは、ビジネス領域、タスクフォーマット、難易度、認知知識次元をカバーする多次元評価分類を特徴としている。
本ベンチマークでは,オープンエンド応答における忠実度と完全度の両方を評価するための調整された評価手法を実装した。
8つの最先端大規模言語モデル (LLM) の広範囲な評価を通じて, 異なる次元にわたる顕著な性能変化を同定する。
一般のLSMは、80点以上のスコアで基本的な保険ドメインの能力を示すが、複雑な現実の保険シナリオを扱う際には、かなりのギャップが残っている。
ベンチマークはまもなく公開される予定だ。
関連論文リスト
- USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models [31.412080488801507]
Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
論文 参考訳(メタデータ) (2025-05-26T08:39:14Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance [51.36387171207314]
LVLM(Large Vision-Language Models)とMLLM(Multimodal Large Language Models)は、専門分野における将来性を示す。
本研究は,自動車,不動産,健康,農業の4種類の保険のマルチモーダルタスクを体系的に評価し,分類する。
我々は、GPT-4oのようなクローズドソースモデルやLLaVAのようなオープンソースモデルを含む11のLVLMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-13T13:31:49Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。