論文の概要: Benchmarking Agents in Insurance Underwriting Environments
- arxiv url: http://arxiv.org/abs/2602.00456v1
- Date: Sat, 31 Jan 2026 02:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.194806
- Title: Benchmarking Agents in Insurance Underwriting Environments
- Title(参考訳): 保険引受環境におけるベンチマークエージェント
- Authors: Amanda Dsouza, Ramya Ramakrishnan, Charles Dickens, Bhavishya Pohani, Christopher M Glaze,
- Abstract要約: 既存のベンチマークは、コードのようなオープンドメインを過度に強調し、狭い精度のメトリクスを使い、真の複雑さを欠いている。
我々は、ドメインエキスパートとの密接なコラボレーションのために設計された、専門家優先のマルチターン保険書記ベンチマークUNDERWRITEを提案する。
- 参考スコア(独自算出の注目度): 0.9728664856449597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents integrate into enterprise applications, their evaluation demands benchmarks that reflect the complexity of real-world operations. Instead, existing benchmarks overemphasize open-domains such as code, use narrow accuracy metrics, and lack authentic complexity. We present UNDERWRITE, an expert-first, multi-turn insurance underwriting benchmark designed in close collaboration with domain experts to capture real-world enterprise challenges. UNDERWRITE introduces critical realism factors often absent in current benchmarks: proprietary business knowledge, noisy tool interfaces, and imperfect simulated users requiring careful information gathering. Evaluating 13 frontier models, we uncover significant gaps between research lab performance and enterprise readiness: the most accurate models are not the most efficient, models hallucinate domain knowledge despite tool access, and pass^k results show a 20% drop in performance. The results from UNDERWRITE demonstrate that expert involvement in benchmark design is essential for realistic agent evaluation, common agentic frameworks exhibit brittleness that skews performance reporting, and hallucination detection in specialized domains demands compositional approaches. Our work provides insights for developing benchmarks that better align with enterprise deployment requirements.
- Abstract(参考訳): AIエージェントがエンタープライズアプリケーションに統合されるにつれて、その評価は実世界の運用の複雑さを反映したベンチマークを必要とする。
代わりに、既存のベンチマークは、コードのようなオープンドメインを過度に強調し、狭い精度のメトリクスを使い、真の複雑さを欠いている。
UNDERWRITEは、ドメインの専門家と緊密にコラボレーションして、現実の企業の課題を捉えるために設計された、エキスパートファーストのマルチターン保険引受ベンチマークである。
UNDERWRITEは、プロプライエタリなビジネス知識、ノイズの多いツールインターフェース、注意深い情報収集を必要とする不完全なシミュレートされたユーザなど、現在のベンチマークで欠落する重要なリアリズム要素を導入している。
13のフロンティアモデルを評価することで、最も正確なモデルが最も効率的ではないこと、モデルがツールアクセスにもかかわらずドメインの知識を幻覚させること、そしてパス^kの結果がパフォーマンスの20%低下を示していること、といった、実験室のパフォーマンスと企業準備の重大なギャップを明らかにします。
UNDERWRITEの結果は、ベンチマーク設計への専門家の関与が、現実的なエージェント評価に不可欠であることを示し、一般的なエージェントフレームワークは、パフォーマンスレポートを歪ませる脆さを示し、特殊なドメインにおける幻覚検出は、構成的アプローチを要求する。
当社の作業は、企業のデプロイメント要件に適合したベンチマークを開発する上での洞察を提供するものです。
関連論文リスト
- Benchmarking that Matters: Rethinking Benchmarking for Practical Impact [2.952553461344481]
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
論文 参考訳(メタデータ) (2025-11-15T15:42:15Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - Multi-Modal Requirements Data-based Acceptance Criteria Generation using LLMs [17.373348983049176]
マルチモーダル要求データから受け入れ基準を生成する新しい手法であるRAGcceptance M2REを提案する。
提案手法は,手作業の労力を効果的に削減し,未払いの利害関係者の意図を捉え,貴重な基準を提供する。
本研究は,ソフトウェア検証プロセスの合理化と開発効率の向上におけるマルチモーダルRAG技術の可能性を明らかにする。
論文 参考訳(メタデータ) (2025-08-09T08:35:40Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。