論文の概要: INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance
- arxiv url: http://arxiv.org/abs/2406.09105v2
- Date: Thu, 07 Aug 2025 20:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.858118
- Title: INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance
- Title(参考訳): INS-MMBench:保険におけるLVLMの性能評価のための総合ベンチマーク
- Authors: Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo,
- Abstract要約: LVLM(Large Vision-Language Models)とMLLM(Multimodal Large Language Models)は、専門分野における将来性を示す。
本研究は,自動車,不動産,健康,農業の4種類の保険のマルチモーダルタスクを体系的に評価し,分類する。
我々は、GPT-4oのようなクローズドソースモデルやLLaVAのようなオープンソースモデルを含む11のLVLMをベンチマークする。
- 参考スコア(独自算出の注目度): 51.36387171207314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) and Multimodal Large Language Models (MLLMs) have demonstrated outstanding performance in various general multimodal applications and have shown increasing promise in specialized domains. However, their potential in the insurance domain-characterized by diverse application scenarios and rich multimodal data-remains largely underexplored. To date, there is no systematic review of multimodal tasks, nor a benchmark specifically designed to assess the capabilities of LVLMs in insurance. This gap hinders the development of LVLMs within the insurance industry. This study systematically reviews and categorizes multimodal tasks for 4 representative types of insurance: auto, property, health, and agricultural. We introduce INS-MMBench, the first hierarchical benchmark tailored for the insurance domain. INS-MMBench encompasses 22 fundamental tasks, 12 meta-tasks and 5 scenario tasks, enabling a comprehensive and progressive assessment from basic capabilities to real-world use cases. We benchmark 11 leading LVLMs, including closed-source models such as GPT-4o and open-source models like LLaVA. Our evaluation validates the effectiveness of INS-MMBench and offers detailed insights into the strengths and limitations of current LVLMs on a variety of insurance-related multimodal tasks. We hope that INS-MMBench will accelerate the integration of LVLMs into the insurance industry and foster interdisciplinary research. Our dataset and evaluation code are available at https://github.com/FDU-INS/INS-MMBench.
- Abstract(参考訳): LVLM(Large Vision-Language Models)とMLLM(Multimodal Large Language Models)は、様々な汎用マルチモーダルアプリケーションにおいて優れた性能を示し、特殊ドメインにおいて高い性能を示す。
しかし、多様なアプリケーションシナリオと豊富なマルチモーダルデータ遺構によって特徴付けられる保険分野におけるその可能性はほとんど調査されていない。
現在、マルチモーダルタスクの体系的なレビューや、保険におけるLVLMの能力を評価するためのベンチマークは行われていない。
このギャップは、保険業界におけるLVLMの発展を妨げる。
本研究は,自動車,不動産,健康,農業の4種類の保険のマルチモーダルタスクを体系的に評価し,分類する。
保険ドメインに適した最初の階層型ベンチマークであるINS-MMBenchを紹介する。
INS-MMBenchは22の基本的なタスク、12のメタタスク、5つのシナリオタスクを含む。
我々は、GPT-4oのようなクローズドソースモデルやLLaVAのようなオープンソースモデルを含む11のLVLMをベンチマークする。
我々は,INS-MMBenchの有効性を検証し,多様な保険関連マルチモーダルタスクにおける現在のLVLMの強度と限界について詳細な知見を提供する。
我々は,INS-MMBenchが,保険業界へのLVLMの統合を加速し,学際研究の促進を期待する。
データセットと評価コードはhttps://github.com/FDU-INS/INS-MMBench.comで公開されています。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models [29.948490682244923]
InsQABenchは中国の保険セクターのベンチマークデータセットである。
保険常識知識、保険構造データベース、保険非構造化文書の3つに分類される。
InsQABenchの微調整は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-01-19T04:53:20Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Harnessing GPT-4V(ision) for Insurance: A Preliminary Exploration [51.36387171207314]
保険には、テキスト、画像、ビデオなど、その運用プロセスにおけるさまざまなデータフォームが含まれる。
GPT-4Vは、保険関連のタスクにおいて顕著な能力を示し、マルチモーダルコンテンツの堅牢な理解を示す。
しかし、GPT-4Vは、詳細なリスク評価と損失評価に苦慮し、画像理解における幻覚に悩まされ、異なる言語に対する可変サポートを示す。
論文 参考訳(メタデータ) (2024-04-15T11:45:30Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。