Fugu-MT 論文翻訳(概要): InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models

論文の概要: InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models

arxiv url: http://arxiv.org/abs/2501.10943v1
Date: Sun, 19 Jan 2025 04:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.213497
Title: InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models
Title（参考訳）: InsQABench: 大規模言語モデルによる中国の保険ドメインの回答のベンチマーク
Authors: Jing Ding, Kai Feng, Binbin Lin, Jiarui Cai, Qiushi Wang, Yu Xie, Xiaojin Zhang, Zhongyu Wei, Wei Chen,
Abstract要約: InsQABenchは中国の保険セクターのベンチマークデータセットである。保険常識知識、保険構造データベース、保険非構造化文書の3つに分類される。 InsQABenchの微調整は性能を著しく向上させる。
参考スコア（独自算出の注目度）: 29.948490682244923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The application of large language models (LLMs) has achieved remarkable success in various fields, but their effectiveness in specialized domains like the Chinese insurance industry remains underexplored. The complexity of insurance knowledge, encompassing specialized terminology and diverse data types, poses significant challenges for both models and users. To address this, we introduce InsQABench, a benchmark dataset for the Chinese insurance sector, structured into three categories: Insurance Commonsense Knowledge, Insurance Structured Database, and Insurance Unstructured Documents, reflecting real-world insurance question-answering tasks.We also propose two methods, SQL-ReAct and RAG-ReAct, to tackle challenges in structured and unstructured data tasks. Evaluations show that while LLMs struggle with domain-specific terminology and nuanced clause texts, fine-tuning on InsQABench significantly improves performance. Our benchmark establishes a solid foundation for advancing LLM applications in the insurance domain, with data and code available at https://github.com/HaileyFamo/InsQABench.git.
Abstract（参考訳）: 大規模言語モデル(LLM)の適用は、様々な分野で顕著な成功を収めてきたが、中国の保険業界のような専門分野における有効性はいまだ探索されていない。専門用語と多種多様なデータ型を含む保険知識の複雑さは、モデルとユーザの両方にとって大きな課題となる。これに対処するため,中国保険セクターのベンチマークデータセットであるInsQABenchを導入し,保険常識知識,保険構造データベース,保険非構造化文書の3つのカテゴリに分類し,現実の保険質問回答タスクを反映する。また,構造化データタスクと非構造化データタスクの課題に取り組むために,SQL-ReActとRAG-ReActの2つの手法を提案する。評価の結果、LLMはドメイン固有の用語やニュアンス付き節文に苦しむ一方で、InsQABenchの微調整により性能が大幅に向上することが示された。当社のベンチマークでは,保険分野におけるLCMアプリケーションの進展に関する基盤を確立し, https://github.com/HaileyFamo/InsQABench.git.comでデータとコードを公開しています。

関連論文リスト

DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain [4.419596289222511]
DMind Benchmarkは、9つの主要なカテゴリにまたがる大規模言語モデル(LLM)を体系的にテストする新しいフレームワークである。 DMind Benchmarkは、ドメイン固有の主観的タスクを取り入れることで、従来の複数の選択の質問を越えている。我々はDMind Benchmarkで15の人気のあるLCMを評価し、Web3固有の推論とアプリケーションの性能ギャップを明らかにする。
論文参考訳（メタデータ） (2025-04-18T16:40:39Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity [23.32017147274093]
SecBenchは、サイバーセキュリティドメインの大規模言語モデル(LLM)を評価するために設計されたベンチマークデータセットである。このデータセットは、オープンソースから高品質なデータを収集し、サイバーセキュリティ質問設計コンテストを組織することで構築された。 16個のSOTA LLMのベンチマーク結果はSecBenchのユーザビリティを示している。
論文参考訳（メタデータ） (2024-12-30T08:11:54Z)
Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance Domain [6.599755599064449]
一般的な事前訓練されたニューラルネットワークは、金融や保険といった専門分野において良い結果を出すのに苦労する可能性がある。これは、トレーニングデータと下流タスクのドメインミスマッチに起因する。保険関連財務文書の匿名化データセットを用いて、ドメイン関連文書を使用することで、匿名性認識問題の結果が向上することを示す。
論文参考訳（メタデータ） (2024-12-12T15:09:44Z)
Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文参考訳（メタデータ） (2024-11-11T09:32:20Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文参考訳（メタデータ） (2024-06-17T15:59:49Z)
INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance [51.36387171207314]
InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。 INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。この評価は、保険領域における様々なマルチモーダルタスクにおける、現在のLVLMの詳細なパフォーマンス解析を提供する。
論文参考訳（メタデータ） (2024-06-13T13:31:49Z)
Harnessing GPT-4V(ision) for Insurance: A Preliminary Exploration [51.36387171207314]
保険には、テキスト、画像、ビデオなど、その運用プロセスにおけるさまざまなデータフォームが含まれる。 GPT-4Vは、保険関連のタスクにおいて顕著な能力を示し、マルチモーダルコンテンツの堅牢な理解を示す。しかし、GPT-4Vは、詳細なリスク評価と損失評価に苦慮し、画像理解における幻覚に悩まされ、異なる言語に対する可変サポートを示す。
論文参考訳（メタデータ） (2024-04-15T11:45:30Z)
When Giant Language Brains Just Aren't Enough! Domain Pizzazz with Knowledge Sparkle Dust [15.484175299150904]
本稿では,大規模言語モデルの実践的ユースケースへの適応におけるギャップを埋めることを目的とした経験的分析を提案する。本研究は, 推論の課題によるケーススタディとして, 保険の質問応答(QA)タスクを選択する。本課題に基づいて,保険政策ルールブックやDBPediaから抽出した付加的な知識により,LLMに依存した新たなモデルを設計する。
論文参考訳（メタデータ） (2023-05-12T03:49:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。