論文の概要: INSURE-Dial: A Phase-Aware Conversational Dataset & Benchmark for Compliance Verification and Phase Detection
- arxiv url: http://arxiv.org/abs/2602.18448v2
- Date: Tue, 24 Feb 2026 07:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.564886
- Title: INSURE-Dial: A Phase-Aware Conversational Dataset & Benchmark for Compliance Verification and Phase Detection
- Title(参考訳): INSURE-Dial:コンプライアンス検証と位相検出のための位相対応会話データセットとベンチマーク
- Authors: Shubham Kulkarni, Alexander Lyzhov, Preetam Joshi, Shiva Chaitanya,
- Abstract要約: 年間約1兆米ドルの電話が米国の医療から排水されている。
我々は、コンプライアンス対応音声エージェントの開発と評価のための最初の公開ベンチマークであるINSURE-Dialを紹介する。
- 参考スコア(独自算出の注目度): 40.157413213893165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Administrative phone tasks drain roughly 1 trillion USD annually from U.S. healthcare, with over 500 million insurance-benefit verification calls manually handled in 2024. We introduce INSURE-Dial, to our knowledge the first public benchmark for developing and assessing compliance-aware voice agents for phase-aware call auditing with span-based compliance verification. The corpus includes 50 de-identified, AI-initiated calls with live insurance representatives (mean 71 turns/call) and 1,000 synthetically generated calls that mirror the same workflow. All calls are annotated with a phase-structured JSON schema covering IVR navigation, patient identification, coverage status, medication checks (up to two drugs), and agent identification (CRN), and each phase is labeled for Information and Procedural compliance under explicit ask/answer logic. We define two novel evaluation tasks: (1) Phase Boundary Detection (span segmentation under phase-specific acceptance rules) and (2) Compliance Verification (IC/PC decisions given fixed spans). Per-phase scores are strong across small, low-latency baselines, but end-to-end reliability is constrained by span-boundary errors. On real calls, full-call exact segmentation is low, showing a gap between conversational fluency and audit-grade evidence.
- Abstract(参考訳): 年間約1兆米ドルの電話業務が米国の医療から排水され、2024年に5億件以上の保険給付の検証コールが手作業で処理された。
InSURE-Dialは, 位相認識型呼出監査のためのコンプライアンス対応音声エージェントの開発と評価のための最初の公開ベンチマークである。
コーパスには、生の保険担当者(平均71回/コール)と、同一のワークフローを反映する合成コール1000回が、特定されていない、AIによる通話50回が含まれている。
すべての呼び出しには、IVRナビゲーション、患者の識別、カバレッジステータス、薬物チェック(最大2つの薬物)、エージェント識別(CRN)を含むフェーズ構造化のJSONスキーマがアノテートされ、各フェーズは明示的な要求/回答ロジックの下で情報および手続き順守のためにラベル付けされる。
本研究では,(1)位相境界検出(位相固有受容規則に基づくスパンセグメンテーション)と(2)コンプライアンス検証(IC/PC決定)の2つの新しい評価課題を定義する。
フェーズ毎のスコアは、小さくて低レイテンシなベースラインで強いが、エンドツーエンドの信頼性は、スパンバウンダリエラーによって制限される。
実際の通話では、フルコールの正確なセグメンテーションは低く、会話の流布と監査グレードのエビデンスの間にギャップがある。
関連論文リスト
- A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - Wigner's Friend as a Circuit: Inter-Branch Communication Witness Benchmarks on Superconducting Quantum Hardware [0.0]
我々は、Violarisが提案した回路ファミリであるIBM Quantumハードウェア上で、ブランチ間通信の目撃者を推定するために実装し、ベンチマークする。
我々は,このプロトコルの5キュービットのインスタンスを,単一回路内での登録間メッセージ転送パターンとして実現した。
論文 参考訳(メタデータ) (2026-01-22T14:30:09Z) - All Required, In Order: Phase-Level Evaluation for AI-Human Dialogue in Healthcare and Beyond [40.157413213893165]
OIP-SCE ( Obligatory-Information Phase Structured Compliance Evaluation) を導入する。
OIP-SCEは、必要なすべての臨床義務が正しい順序で満たされているかどうかを、臨床医がレビューする明確な証拠で確認する。
これにより、複雑なルールが実用的かつ監査可能になり、技術的進歩と医療が本当に必要とするものの間のギャップを埋める助けになる。
論文 参考訳(メタデータ) (2026-01-13T16:15:38Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文 参考訳(メタデータ) (2025-09-26T16:42:43Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines? [0.0]
ファクトチェックを必要とするテキストセグメントを識別するために、ゼロショットと少数ショットのLCMプロンプトを使用する。
各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価した。
提案手法により, 最適急進的冗長性はドメイン依存であり, 文脈の追加は性能を向上しないことがわかった。
論文 参考訳(メタデータ) (2024-04-18T13:31:05Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal
Biometric Fusion Algorithms [58.156733807470395]
本稿では,BioSecure DS2 (Access Control) 評価キャンペーンの枠組み内で実施したベンチマーク研究について報告する。
キャンペーンは、約500人の中規模施設における物理的アクセス制御の適用を目標とした。
我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。
論文 参考訳(メタデータ) (2021-11-17T13:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。