論文の概要: RISC: Generating Realistic Synthetic Bilingual Insurance Contract
- arxiv url: http://arxiv.org/abs/2304.04212v1
- Date: Sun, 9 Apr 2023 10:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:01:40.997365
- Title: RISC: Generating Realistic Synthetic Bilingual Insurance Contract
- Title(参考訳): RISC: 現実的な合成バイリンガル保険契約の作成
- Authors: David Beauchemin and Richard Khoury
- Abstract要約: 保険契約は90ページから100ページの長さで、法律や保険に特有な語彙を用いている。
RISCBAC(Realistic Insurance Synthetic Bilingual Automobile Contract データセット)を紹介する。
このデータセットは、フランスとイングランドの無記名保険契約から成っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents RISC, an open-source Python package data generator
(https://github.com/GRAAL-Research/risc). RISC generates look-alike automobile
insurance contracts based on the Quebec regulatory insurance form in French and
English. Insurance contracts are 90 to 100 pages long and use complex legal and
insurance-specific vocabulary for a layperson. Hence, they are a much more
complex class of documents than those in traditional NLP corpora. Therefore, we
introduce RISCBAC, a Realistic Insurance Synthetic Bilingual Automobile
Contract dataset based on the mandatory Quebec car insurance contract. The
dataset comprises 10,000 French and English unannotated insurance contracts.
RISCBAC enables NLP research for unsupervised automatic summarisation, question
answering, text simplification, machine translation and more. Moreover, it can
be further automatically annotated as a dataset for supervised tasks such as
NER
- Abstract(参考訳): 本稿では、オープンソースのPythonパッケージデータジェネレータRISC(https://github.com/GRAAL-Research/risc)を提案する。
riscはケベック州の規制保険に基づいて、フランス語と英語でルックアライクな自動車保険契約を生産している。
保険契約は90ページから100ページの長さで、法律や保険に特有な語彙を用いている。
したがって、それらは従来のNLPコーパスよりもずっと複雑な文書のクラスである。
そこで本研究では,ケベック州自動車保険契約に基づく現実保険合成バイリンガル自動車契約データセットRISCBACを紹介する。
このデータセットは、フランスとイングランドの無記名保険契約から成っている。
RISCBACは、教師なしの自動要約、質問応答、テキストの単純化、機械翻訳などのNLP研究を可能にする。
さらに、nerのような教師付きタスクのためのデータセットとして、自動アノテートすることもできる。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Quebec Automobile Insurance Question-Answering With Retrieval-Augmented Generation [0.0]
本報告では,ケベック自動車保険専門家基準コーパスと,レイパーパーソン自動車保険問題に対する82名の専門家回答の2つのコーパスを紹介する。
本研究は、両コーパスを用いて、ケベック州自動車保険問題に答えるために、最先端のLCMであるGPT4-oを自動かつ手動で評価する。
論文 参考訳(メタデータ) (2024-10-12T19:24:18Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - AI, insurance, discrimination and unfair differentiation. An overview and research agenda [0.6144680854063939]
保険会社は人工知能(AI)によって実現された2つのトレンドに魅了されているようだ
まず、保険会社はAIを使って、より正確にリスクを評価するために、より新しいタイプのデータを分析することができる。
第二に、保険会社はAIを使用して、個々の消費者の行動をリアルタイムで監視することができる。
この2つの傾向は多くの利点をもたらすが、社会に差別的影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-01-22T12:39:36Z) - Towards Complex-query Referring Image Segmentation: A Novel Benchmark [42.263084522244796]
複雑なクエリ、すなわち textbfRIS-CQ を用いた新しい RIS ベンチマークを提案する。
RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報に富んだクエリで既存のRISに挑戦する。
マルチモーダリティグラフアライメントモデル(textbftextscDuMoGa)と呼ばれる,RIS-CQをよりよく扱うニッチターゲット方式を提案する。
論文 参考訳(メタデータ) (2023-09-29T12:58:13Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards Robust Referring Image Segmentation [80.53860642199412]
Referring Image (RIS)は、テキスト記述に基づいてオブジェクトマスクを出力する基本的な視覚言語タスクである。
我々はロバスト参照画像(R-RIS)というRISの新しい定式化を提案する。
既存のRISデータセットを負の文で拡張することで、3つのR-RISデータセットを作成します。
本稿では,トークンベースのビジョンと言語融合モジュールを備えた,RefSegformerと呼ばれるトランスフォーマーベースのモデルを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:48:26Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。