論文の概要: Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2603.07825v1
- Date: Sun, 08 Mar 2026 22:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.308608
- Title: Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation
- Title(参考訳): ケベック州保険の大規模言語モデルのベンチマーク:閉鎖版から検索型世代へ
- Authors: David Beauchemin, Richard Khoury,
- Abstract要約: 大規模言語モデル(LLM)は、自動アドバイザリサービスのためのスケーラブルなソリューションを提供する。
しかし、高度なドメインへの展開は、厳格な法的正確性と信頼性にかかっている。
クローズドブック生成と検索強化生成という,2つのパラダイムにわたる51 LLMの包括的評価を行う。
2)RAGは知識等化剤として機能し、パラメトリック知識の弱いモデルの精度を35ポイント以上向上するが、パラドックス的に「コンテキストの散逸」を引き起こす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The digitization of insurance distribution in the Canadian province of Quebec, accelerated by legislative changes such as Bill 141, has created a significant "advice gap", leaving consumers to interpret complex financial contracts without professional guidance. While Large Language Models (LLMs) offer a scalable solution for automated advisory services, their deployment in high-stakes domains hinges on strict legal accuracy and trustworthiness. In this paper, we address this challenge by introducing AEPC-QA, a private gold-standard benchmark of 807 multiple-choice questions derived from official regulatory certification (paper) handbooks. We conduct a comprehensive evaluation of 51 LLMs across two paradigms: closed-book generation and retrieval-augmented generation (RAG) using a specialized corpus of Quebec insurance documents. Our results reveal three critical insights: 1) the supremacy of inference-time reasoning, where models leveraging chain-of-thought processing (e.g. o3-2025-04-16, o1-2024-12-17) significantly outperform standard instruction-tuned models; 2) RAG acts as a knowledge equalizer, boosting the accuracy of models with weak parametric knowledge by over 35 percentage points, yet paradoxically causing "context distraction" in others, leading to catastrophic performance regressions; and 3) a "specialization paradox", where massive generalist models consistently outperform smaller, domain-specific French fine-tuned ones. These findings suggest that while current architectures approach expert-level proficiency (~79%), the instability introduced by external context retrieval necessitates rigorous robustness calibration before autonomous deployment is viable.
- Abstract(参考訳): カナダのケベック州における保険のデジタル化は、法案141のような立法的変更によって加速され、消費者が専門的な指導なしに複雑な金融契約を解釈し、重要な「技術格差」を生み出した。
大規模言語モデル(LLM)は、自動アドバイザリサービスのためのスケーラブルなソリューションを提供するが、高度なドメインへのデプロイメントは、厳格な法的正確性と信頼性に依存している。
本稿では,この課題に対して,公式の規制認定(紙)ハンドブックから得られた807の多重選択質問のプライベートゴールドスタンダードベンチマークであるAEPC-QAを導入することで対処する。
我々は、ケベック州保険文書の専門コーパスを用いて、クローズドブック生成と検索強化世代(RAG)の2つのパラダイムにわたる51のLCMを包括的に評価する。
1) チェーン・オブ・シント・プロセッシング(eg o3-2025-04-16, o1-2024-12-17)を利用したモデルによる推論時間推論の優位性。
2)RAGは知識等化剤として機能し、パラメトリックな知識の弱いモデルの精度を35ポイント以上向上させるが、パラドックス的に他人に「内容の混乱」を引き起こし、破滅的な性能低下につながる。
3)「特殊化パラドックス(specialization paradox)」では、大規模なジェネラリストモデルは、より小さく、ドメイン固有のフランス語の微調整モデルよりも一貫して優れている。
これらの結果は、現在のアーキテクチャはエキスパートレベルの習熟度(約79%)に近づきつつあるが、外部コンテキストの検索によってもたらされる不安定性は、自律的な展開が実現する前に厳密な堅牢性校正を必要とすることを示唆している。
関連論文リスト
- ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - Reliability by design: quantifying and eliminating fabrication risk in LLMs. From generative to consultative AI: a comparative analysis in the legal domain and lessons for high-stakes knowledge bases [0.0]
本稿では,幻覚を減らし,大規模言語モデルを高額な法的作業に信頼性を持たせる方法について検討する。
1)独立した生成モデル(創造的オラクル)、(2)基本的な検索強化システム(専門的アーキビスト)、(3)高度なエンドツーエンド最適化RAGシステム(厳密なアーキビスト)の3つのAIパラダイムを区別する。
論文 参考訳(メタデータ) (2026-01-21T21:26:42Z) - Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models [48.65910216527897]
GAG(Generation-Augmented Generation)は、プライベートな専門知識を専門的なモダリティとして扱い、コンパクトな表現レベルインターフェースを通じてそれを注入する。
GAGは2つのベンチマークで強力なRAGベースラインよりも15.34%、14.86%の専門性能を向上した。
論文 参考訳(メタデータ) (2026-01-13T04:23:36Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。
これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。
実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文 参考訳(メタデータ) (2025-10-28T16:22:54Z) - RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models [43.76961935990733]
欠陥のあるシステムに基づいて、言語モデルが回答を拒否する能力は、依然として重大な障害点である。
RefusalBenchは、制御された言語コンテキストを通して診断テストケースを作成するジェネレーティブな方法論である。
選択的な拒絶は、改善への明確な道筋を提供する列車で、アライメントに敏感な能力であることがわかった。
論文 参考訳(メタデータ) (2025-10-12T00:53:42Z) - Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance? [2.010294990327175]
現在のAI評価プラクティスは、確立されたベンチマークに大きく依存しています。
この研究は、この「ベンチマーク・規制ギャップ」を定量化する緊急の必要性に対処する。
評価のエコシステムは、その焦点の大部分を狭い行動規範に捧げています。
論文 参考訳(メタデータ) (2025-08-07T15:03:39Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。