論文の概要: An Industrial-Scale Insurance LLM Achieving Verifiable Domain Mastery and Hallucination Control without Competence Trade-offs
- arxiv url: http://arxiv.org/abs/2603.14463v1
- Date: Sun, 15 Mar 2026 16:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.822437
- Title: An Industrial-Scale Insurance LLM Achieving Verifiable Domain Mastery and Hallucination Control without Competence Trade-offs
- Title(参考訳): コンピテンストレードオフを伴わない検証可能なドメインナレッジと幻覚制御を実現する産業用保険LLM
- Authors: Qian Zhu, Xinnan Guo, Jingjing Huo, Jun Li, Pan Liu, Wenyan Yang, Wanqing Xu, Xuan Lin,
- Abstract要約: INS-S1は、新しいエンドツーエンドアライメントパラダイムによってトレーニングされた保険特有なLarge Language Modelsファミリーである。
INS-S1はドメインタスクでのSOTAパフォーマンスを実現し、DeepSeek-R1とGemini-2.5-Proを大きく上回っている。
本結果は,汎用知能を損なうことなく,厳密な領域の特殊化を実現することができることを示す。
- 参考スコア(独自算出の注目度): 20.181876038751156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Large Language Models (LLMs) to high-stakes vertical domains like insurance presents a significant challenge: scenarios demand strict adherence to complex regulations and business logic with zero tolerance for hallucinations. Existing approaches often suffer from a Competency Trade-off - sacrificing general intelligence for domain expertise - or rely heavily on RAG without intrinsic reasoning. To bridge this gap, we present INS-S1, an insurance-specific LLM family trained via a novel end-to-end alignment paradigm. Our approach features two methodological innovations: (1) A Verifiable Data Synthesis System that constructs hierarchical datasets for actuarial reasoning and compliance; and (2) A Progressive SFT-RL Curriculum Framework that integrates dynamic data annealing with a synergistic mix of Verified Reasoning (RLVR) and AI Feedback (RLAIF). By optimizing data ratios and reward signals, this framework enforces domain constraints while preventing catastrophic forgetting. Additionally, we release INSEva, the most comprehensive insurance benchmark to date (39k+ samples). Extensive experiments show that INS-S1 achieves SOTA performance on domain tasks, significantly outperforming DeepSeek-R1 and Gemini-2.5-Pro. Crucially, it maintains top-tier general capabilities and achieves a record-low 0.6% hallucination rate (HHEM). Our results demonstrate that rigorous domain specialization can be achieved without compromising general intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)を保険のような高水準の分野に適応させることは、重大な課題となる。
既存のアプローチは、しばしばコンピテンシートレードオフ(ドメインの専門知識のために汎用知性を犠牲にする)や、本質的な推論なしでRAGに大きく依存する。
このギャップを埋めるために,新しいエンドツーエンドアライメントパラダイムを用いて訓練された保険特化LLMファミリーであるINS-S1を提案する。
提案手法は,(1)アクチュアリ推論とコンプライアンスのための階層的データセットを構築する検証可能なデータ合成システム,(2)動的データアニーリングとRLVR(Verified Reasoning)とAI Feedback(RLAIF)を併用したプログレッシブなSFT-RLカリキュラムフレームワークである。
データ比率と報酬信号の最適化により、このフレームワークは破滅的な忘れ込みを防止しつつ、ドメインの制約を強制する。
さらに、これまでで最も包括的な保険ベンチマーク(39k以上のサンプル)であるINSEvaをリリースしています。
大規模な実験により、INS-S1はドメインタスクでのSOTAパフォーマンスを達成し、DeepSeek-R1とGemini-2.5-Proを著しく上回った。
重要な点として、最上位の一般的な能力を維持し、最も低い0.6%の幻覚率(HHEM)を達成する。
本結果は,汎用知能を損なうことなく,厳密な領域の特殊化を実現することができることを示す。
関連論文リスト
- SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy [12.070587084660096]
走査型プローブ顕微鏡(SPM)に特化して設計されたPhDレベルのマルチモーダルベンチマークを提案する。
AGS(Anchor-Gated Sieve)技術を用いて,2023年から2025年にかけて発行されたarXivとジャーナル論文から高価値画像テキストペアを効率よく抽出する。
当社のパイプラインは,高データセットの純度を維持しながら,極端なトークン保存を実現しています。
論文 参考訳(メタデータ) (2026-02-26T13:08:56Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - Enhanced-FQL($λ$), an Efficient and Interpretable RL with novel Fuzzy Eligibility Traces and Segmented Experience Replay [0.0]
Enhanced-FQL($$)は、n-step fuzzy TDやfuzzyA($$)ベースラインと比較して、優れたサンプル効率と分散の低減を実現している。
フレームワーク固有の解釈可能性と計算効率と理論的収束保証が組み合わさって、安全クリティカルなアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-07T20:59:18Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - IAD-R1: Reinforcing Consistent Reasoning in Industrial Anomaly Detection [11.178131621535261]
普遍的なポストトレーニングフレームワークであるIAD-R1は、異常検出機能を大幅に強化する。
IAD-R1は7つのVision-Language Model(VLM)で大幅に改善された
IAD-R1はGPT-4.1やClaude-Sonnet-4といった商用モデルを上回るゼロショット設定である。
論文 参考訳(メタデータ) (2025-08-07T09:34:45Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。