論文の概要: Quebec Automobile Insurance Question-Answering With Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2410.09623v1
- Date: Sat, 12 Oct 2024 19:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.718138
- Title: Quebec Automobile Insurance Question-Answering With Retrieval-Augmented Generation
- Title(参考訳): ケベック州自動車保険の質問-店舗増産で回答
- Authors: David Beauchemin, Zachary Gagnon, Ricahrd Khoury,
- Abstract要約: 本報告では,ケベック自動車保険専門家基準コーパスと,レイパーパーソン自動車保険問題に対する82名の専門家回答の2つのコーパスを紹介する。
本研究は、両コーパスを用いて、ケベック州自動車保険問題に答えるために、最先端のLCMであるGPT4-oを自動かつ手動で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform outstandingly in various downstream tasks, and the use of the Retrieval-Augmented Generation (RAG) architecture has been shown to improve performance for legal question answering (Nuruzzaman and Hussain, 2020; Louis et al., 2024). However, there are limited applications in insurance questions-answering, a specific type of legal document. This paper introduces two corpora: the Quebec Automobile Insurance Expertise Reference Corpus and a set of 82 Expert Answers to Layperson Automobile Insurance Questions. Our study leverages both corpora to automatically and manually assess a GPT4-o, a state-of-the-art LLM, to answer Quebec automobile insurance questions. Our results demonstrate that, on average, using our expertise reference corpus generates better responses on both automatic and manual evaluation metrics. However, they also highlight that LLM QA is unreliable enough for mass utilization in critical areas. Indeed, our results show that between 5% to 13% of answered questions include a false statement that could lead to customer misunderstanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著に機能し、法的な質問応答のパフォーマンスを向上させるために、検索型拡張世代(RAG)アーキテクチャの使用が示されている(Nuruzzaman and Hussain, 2020; Louis et al , 2024)。
しかし、特定の種類の法律文書である保険質問回答には、限定的な応用がある。
本稿では,ケベック自動車保険専門家基準コーパスと,レイパーマン自動車保険問題に対する82名の専門家回答のセットの2つのコーパスを紹介する。
本研究は、両コーパスを用いて、ケベック州自動車保険問題に答えるために、最先端のLCMであるGPT4-oを自動かつ手動で評価する。
この結果から, 平均的基準コーパスを用いて, 自動評価指標と手動評価指標の双方において, より優れた応答が得られたことが示唆された。
しかし、LLM QAは臨界領域での大量利用に十分信頼できないことも強調した。
実際、私たちの結果は、回答された質問の5%から13%が、顧客の誤解につながる可能性のある虚偽の声明を含んでいることを示しています。
関連論文リスト
- A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - The Structure of Financial Equity Research Reports -- Identification of the Most Frequently Asked Questions in Financial Analyst Reports to Automate Equity Research Using Llama 3 and GPT-4 [6.085131799375494]
この研究は72のERRの文を文単位で分析し、48.7%の文を169の質問アーチタイプに分類した。
我々は質問を事前に定義しなかったが、ERRの声明からのみ派生した。
この研究は、現在のERRの書き込みプロセスが、さらなる自動化、品質と効率の改善の恩恵を受ける可能性があることを裏付けている。
論文 参考訳(メタデータ) (2024-07-04T15:58:02Z) - Answering real-world clinical questions using large language model based systems [2.2605659089865355]
大規模言語モデル(LLM)は、出版された文献を要約するか、実世界データ(RWD)に基づいた新しい研究を生成することによって、両方の課題に対処できる可能性がある。
臨床50問に回答する5つのLCMベースのシステムについて検討し,9名の医師に関連性,信頼性,行動性について検討した。
論文 参考訳(メタデータ) (2024-06-29T22:39:20Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - RISC: Generating Realistic Synthetic Bilingual Insurance Contract [0.0]
保険契約は90ページから100ページの長さで、法律や保険に特有な語彙を用いている。
RISCBAC(Realistic Insurance Synthetic Bilingual Automobile Contract データセット)を紹介する。
このデータセットは、フランスとイングランドの無記名保険契約から成っている。
論文 参考訳(メタデータ) (2023-04-09T10:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。