論文の概要: INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance
- arxiv url: http://arxiv.org/abs/2406.09105v1
- Date: Thu, 13 Jun 2024 13:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:44:14.910965
- Title: INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance
- Title(参考訳): INS-MMBench:保険におけるLVLMの性能評価のための総合ベンチマーク
- Authors: Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo,
- Abstract要約: InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。
INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。
この評価は、保険領域における様々なマルチモーダルタスクにおける、現在のLVLMの詳細なパフォーマンス解析を提供する。
- 参考スコア(独自算出の注目度): 51.36387171207314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated outstanding performance in various general multimodal applications such as image recognition and visual reasoning, and have also shown promising potential in specialized domains. However, the application potential of LVLMs in the insurance domain-characterized by rich application scenarios and abundant multimodal data-has not been effectively explored. There is no systematic review of multimodal tasks in the insurance domain, nor a benchmark specifically designed to evaluate the capabilities of LVLMs in insurance. This gap hinders the development of LVLMs within the insurance domain. In this paper, we systematically review and distill multimodal tasks for four representative types of insurance: auto insurance, property insurance, health insurance, and agricultural insurance. We propose INS-MMBench, the first comprehensive LVLMs benchmark tailored for the insurance domain. INS-MMBench comprises a total of 2.2K thoroughly designed multiple-choice questions, covering 12 meta-tasks and 22 fundamental tasks. Furthermore, we evaluate multiple representative LVLMs, including closed-source models such as GPT-4o and open-source models like BLIP-2. This evaluation not only validates the effectiveness of our benchmark but also provides an in-depth performance analysis of current LVLMs on various multimodal tasks in the insurance domain. We hope that INS-MMBench will facilitate the further application of LVLMs in the insurance domain and inspire interdisciplinary development. Our dataset and evaluation code are available at https://github.com/FDU-INS/INS-MMBench.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、画像認識や視覚的推論など、様々な汎用マルチモーダルアプリケーションにおいて優れた性能を示しており、特殊領域において有望な可能性を示している。
しかし、豊富なアプリケーションシナリオと豊富なマルチモーダルデータによって特徴付けられる保険分野におけるLVLMの適用可能性については、効果的に検討されていない。
保険領域におけるマルチモーダルタスクの体系的なレビューや、保険におけるLVLMの能力を評価するためのベンチマークはない。
このギャップは、保険領域内のLVLMの開発を妨げる。
本稿では, 自動車保険, 不動産保険, 健康保険, 農業保険の4種類の代表的な保険について, マルチモーダルタスクを体系的に検討し, 蒸留する。
InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。
INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。
さらに、GPT-4oのようなクローズドソースモデルやBLIP-2のようなオープンソースモデルを含む複数の代表的なLVLMを評価した。
この評価は,我々のベンチマークの有効性を検証するだけでなく,保険領域における様々なマルチモーダルタスクにおける,現在のLVLMの詳細な性能解析も提供する。
我々は,INS-MMBenchが,保険分野におけるLVLMのさらなる適用を促進し,学際発展を促すことを願っている。
データセットと評価コードはhttps://github.com/FDU-INS/INS-MMBench.comで公開されています。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Harnessing GPT-4V(ision) for Insurance: A Preliminary Exploration [51.36387171207314]
保険には、テキスト、画像、ビデオなど、その運用プロセスにおけるさまざまなデータフォームが含まれる。
GPT-4Vは、保険関連のタスクにおいて顕著な能力を示し、マルチモーダルコンテンツの堅牢な理解を示す。
しかし、GPT-4Vは、詳細なリスク評価と損失評価に苦慮し、画像理解における幻覚に悩まされ、異なる言語に対する可変サポートを示す。
論文 参考訳(メタデータ) (2024-04-15T11:45:30Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。