論文の概要: Prudential Reliability of Large Language Models in Reinsurance: Governance, Assurance, and Capital Efficiency
- arxiv url: http://arxiv.org/abs/2511.08082v1
- Date: Wed, 12 Nov 2025 01:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.633457
- Title: Prudential Reliability of Large Language Models in Reinsurance: Governance, Assurance, and Capital Efficiency
- Title(参考訳): 再保険における大規模言語モデルのプルーデンシャル信頼性:ガバナンス、保証、資本効率
- Authors: Stella C. Dong,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の信頼性を再現性で評価する手法を開発する。
ガバナンス、データ系統、保証、レジリエンス、規制アライメントという5つの柱アーキテクチャは、Solvency II, SR 11-7からの監督的な期待を伝達する。
このフレームワークはReinsurance AI Reliability and Assurance Benchmark (RAIRAB)を通じて実装されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper develops a prudential framework for assessing the reliability of large language models (LLMs) in reinsurance. A five-pillar architecture--governance, data lineage, assurance, resilience, and regulatory alignment--translates supervisory expectations from Solvency II, SR 11-7, and guidance from EIOPA (2025), NAIC (2023), and IAIS (2024) into measurable lifecycle controls. The framework is implemented through the Reinsurance AI Reliability and Assurance Benchmark (RAIRAB), which evaluates whether governance-embedded LLMs meet prudential standards for grounding, transparency, and accountability. Across six task families, retrieval-grounded configurations achieved higher grounding accuracy (0.90), reduced hallucination and interpretive drift by roughly 40%, and nearly doubled transparency. These mechanisms lower informational frictions in risk transfer and capital allocation, showing that existing prudential doctrines already accommodate reliable AI when governance is explicit, data are traceable, and assurance is verifiable.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の信頼性を再現性で評価する手法を開発する。
ガバナンス、データ系統、保証、レジリエンス、規制アライメントという5つの柱アーキテクチャは、Solvency II、SR 11-7からの監督的な期待と、EIOPA(2025年)、NAIC(2023年)、IAIS(2024年)のガイダンスを計測可能なライフサイクルコントロールに変換する。
このフレームワークはReinsurance AI Reliability and Assurance Benchmark (RAIRAB)を通じて実装されている。
6つのタスクファミリーにまたがって、検索接地された構成は、高い接地精度(0.90)、幻覚と解釈のドリフトを約40%減らし、透明性をほぼ2倍に向上させた。
これらのメカニズムは、リスク転送と資本配分における情報的摩擦を低くし、ガバナンスが明確で、データがトレース可能で、保証が検証可能である場合、既存の先導的ドクトリンが信頼できるAIに対応していることを示している。
関連論文リスト
- Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance? [2.010294990327175]
現在のAI評価プラクティスは、確立されたベンチマークに大きく依存しています。
この研究は、この「ベンチマーク・規制ギャップ」を定量化する緊急の必要性に対処する。
評価のエコシステムは、その焦点の大部分を狭い行動規範に捧げています。
論文 参考訳(メタデータ) (2025-08-07T15:03:39Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Beyond Explainability: The Case for AI Validation [0.0]
我々は、中央規制柱としての検証へのシフトを主張する。
AI出力の信頼性、一貫性、堅牢性を保証するバリデーションは、説明可能性に対してより実用的で、スケーラブルで、リスクに敏感な代替手段を提供する。
本稿では,事前・後検証,第三者監査,調和標準,債務インセンティブを中心に,先進的な政策枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:42:41Z) - Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception [0.4124847249415279]
安全クリティカルな認識システムは、安全を維持するために確実な不確実性定量化と原則化された禁制機構を必要とする。
本稿では,統計的に保証された不確実性推定を提供するとともに,リスクの高いシナリオにおいて選択的な予測を可能にする,新しいデュアルスレッド整合化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:45:31Z) - Meta-Sealing: A Revolutionizing Integrity Assurance Protocol for Transparent, Tamper-Proof, and Trustworthy AI System [0.0]
この研究は、AIシステムの整合性検証を根本的に変更する暗号フレームワークであるMeta-Sealingを紹介する。
このフレームワークは、高度な暗号と分散検証を組み合わせることで、数学的厳密さと計算効率の両方を達成する、暗黙の保証を提供する。
論文 参考訳(メタデータ) (2024-10-31T15:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。