論文の概要: Design, Results and Industry Implications of the World's First Insurance Large Language Model Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2511.07794v1
- Date: Wed, 12 Nov 2025 01:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.481412
- Title: Design, Results and Industry Implications of the World's First Insurance Large Language Model Evaluation Benchmark
- Title(参考訳): 世界最初の保険大言語モデル評価ベンチマークの設計・結果・産業的意味
- Authors: Hua Zhou, Bing Ma, Yufei Zhang, Yi Zhao,
- Abstract要約: 本稿では,CUFEInse v1.0の構築手法,多次元評価システム,基礎となる設計思想について詳述する。
11の主流大言語モデルに対して総合的な評価を行った。
- 参考スコア(独自算出の注目度): 9.636604321949322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper comprehensively elaborates on the construction methodology, multi-dimensional evaluation system, and underlying design philosophy of CUFEInse v1.0. Adhering to the principles of "quantitative-oriented, expert-driven, and multi-validation," the benchmark establishes an evaluation framework covering 5 core dimensions, 54 sub-indicators, and 14,430 high-quality questions, encompassing insurance theoretical knowledge, industry understanding, safety and compliance, intelligent agent application, and logical rigor. Based on this benchmark, a comprehensive evaluation was conducted on 11 mainstream large language models. The evaluation results reveal that general-purpose models suffer from common bottlenecks such as weak actuarial capabilities and inadequate compliance adaptation. High-quality domain-specific training demonstrates significant advantages in insurance vertical scenarios but exhibits shortcomings in business adaptation and compliance. The evaluation also accurately identifies the common bottlenecks of current large models in professional scenarios such as insurance actuarial, underwriting and claim settlement reasoning, and compliant marketing copywriting. The establishment of CUFEInse not only fills the gap in professional evaluation benchmarks for the insurance field, providing academia and industry with a professional, systematic, and authoritative evaluation tool, but also its construction concept and methodology offer important references for the evaluation paradigm of large models in vertical fields, serving as an authoritative reference for academic model optimization and industrial model selection. Finally, the paper looks forward to the future iteration direction of the evaluation benchmark and the core development direction of "domain adaptation + reasoning enhancement" for insurance large models.
- Abstract(参考訳): 本稿では,CUFEInse v1.0の構築手法,多次元評価システム,基礎となる設計思想について概観する。
5つの中核次元、54のサブ指標、14,430の高品質な質問をカバーし、保険理論知識、業界理解、安全とコンプライアンス、インテリジェントエージェントアプリケーション、論理リガーを包含する評価フレームワークを確立する。
このベンチマークに基づいて、11の主流の大規模言語モデルに対して包括的な評価を行った。
評価結果から, 汎用モデルでは, 動作能力の弱さや適合性の不十分さなど, 共通のボトルネックに悩まされていることが明らかとなった。
高品質なドメイン固有トレーニングは、保険の垂直シナリオにおいて大きな利点を示すが、ビジネス適応とコンプライアンスの欠点を示す。
この評価は、保険のアクチュアリアル、引受とクレームの解決の推論、それに準拠するマーケティングのコピーライティングといったプロフェッショナルシナリオにおける、現在の大規模モデルの一般的なボトルネックを正確に識別する。
CUFEInseの設立は、保険分野の専門的評価ベンチマークのギャップを埋め、学術・産業に専門的・体系的・権威的な評価ツールを提供するだけでなく、その構築コンセプトと方法論は、学術モデル最適化と産業モデル選択の権威的な基準として、垂直分野における大規模モデルの評価パラダイムに重要な参照を提供する。
最後に, 評価ベンチマークの今後のイテレーション方向性と, 保険大モデルにおける「ドメイン適応・推論強化」のコア開発方向性を楽しみにしている。
関連論文リスト
- Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。
私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文 参考訳(メタデータ) (2025-05-13T20:36:22Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。