論文の概要: LogiDebrief: A Signal-Temporal Logic based Automated Debriefing Approach with Large Language Models Integration
- arxiv url: http://arxiv.org/abs/2505.03985v1
- Date: Tue, 06 May 2025 21:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.920865
- Title: LogiDebrief: A Signal-Temporal Logic based Automated Debriefing Approach with Large Language Models Integration
- Title(参考訳): LogiDebrief: 大規模言語モデル統合による信号時間論理に基づく自動記述手法
- Authors: Zirong Chen, Ziyan An, Jennifer Reynolds, Kristin Mullen, Stephen Martini, Meiyi Ma,
- Abstract要約: 我々は,9-1-1コールテイカの人間主導評価を自動化する,AI駆動のフレームワークであるLogiDebriefを紹介する。
LogiDebriefは、コールテイク要求を論理的な仕様として形式化し、9-1呼び出しの体系的な評価を可能にする。
実世界の1,701件の通話を遮断し、311.85時間のアクティブ・エンゲージメントを節約した。
- 参考スコア(独自算出の注目度): 2.1074375725054697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emergency response services are critical to public safety, with 9-1-1 call-takers playing a key role in ensuring timely and effective emergency operations. To ensure call-taking performance consistency, quality assurance is implemented to evaluate and refine call-takers' skillsets. However, traditional human-led evaluations struggle with high call volumes, leading to low coverage and delayed assessments. We introduce LogiDebrief, an AI-driven framework that automates traditional 9-1-1 call debriefing by integrating Signal-Temporal Logic (STL) with Large Language Models (LLMs) for fully-covered rigorous performance evaluation. LogiDebrief formalizes call-taking requirements as logical specifications, enabling systematic assessment of 9-1-1 calls against procedural guidelines. It employs a three-step verification process: (1) contextual understanding to identify responder types, incident classifications, and critical conditions; (2) STL-based runtime checking with LLM integration to ensure compliance; and (3) automated aggregation of results into quality assurance reports. Beyond its technical contributions, LogiDebrief has demonstrated real-world impact. Successfully deployed at Metro Nashville Department of Emergency Communications, it has assisted in debriefing 1,701 real-world calls, saving 311.85 hours of active engagement. Empirical evaluation with real-world data confirms its accuracy, while a case study and extensive user study highlight its effectiveness in enhancing call-taking performance.
- Abstract(参考訳): 緊急対応サービスは公共の安全に重要であり、9-1-1コールテイカーは、タイムリーかつ効果的な緊急操作を保証する上で重要な役割を担っている。
コールテイク性能の整合性を確保するため、コールテイクのスキルを評価・洗練するために品質保証が実施される。
しかし、従来の人間による評価は、高い呼び出し量に苦しむため、カバレッジが低く、評価が遅れる。
このフレームワークは、STL(Signal-Temporal Logic)とLLM(Large Language Models)を統合して、厳密なパフォーマンス評価を行う。
LogiDebriefは、コールテイク要件を論理的な仕様として形式化し、手続き的ガイドラインに対する9-1呼び出しの体系的な評価を可能にする。
1)応答者タイプ,インシデント分類,クリティカル条件を識別するための文脈的理解,(2)コンプライアンスを確保するためのLSM統合によるSTLベースのランタイムチェック,(3)品質保証レポートへの結果の自動集約,の3段階の検証プロセスを採用している。
技術的な貢献以外にも、LogiDebriefは現実世界への影響を実証している。
Metro Nashville Department of Emergency Communicationsに配備された同社は、1,701件のリアルタイム通話を支援し、311.85時間のアクティブ・エンゲージメントを節約した。
実世界のデータを用いた経験的評価は,その正確性を確認する一方,ケーススタディと広範囲なユーザスタディでは,コールテイク性能の向上効果を強調している。
関連論文リスト
- Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。
本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。
以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Real-Time Multimodal Cognitive Assistant for Emergency Medical Services [4.669165383466683]
本稿では,エンド・ツー・エンドのウェアラブル認知アシスタントシステムであるCognitiveEMSを提案する。
緊急現場からのマルチモーダルデータのリアルタイム取得と分析に協力的な仮想パートナーとして機能する。
論文 参考訳(メタデータ) (2024-03-11T13:56:57Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Auto311: A Confidence-guided Automated System for Non-emergency Calls [2.025468874117372]
我々は11,796件の緊急通話記録を分析し、311件の緊急通話を処理する最初の自動化システムであるAuto311を開発した。
実世界のデータを使って、システムの有効性とデプロイ性を評価しました。
論文 参考訳(メタデータ) (2023-12-19T20:52:04Z) - An Emergency Medical Services Clinical Audit System driven by Named
Entity Recognition from Deep Learning [0.0]
本稿では, 階層型と非構造化型の両方の救急症例記録と, ディープニューラルネットワークを用いたエンティティ認識モデルを用いた臨床記録に基づく自動監査システムを提案する。
提案手法は,非構造的救急用フリーテキストレポートから臨床エンティティを確実に識別できる名前付きエンティティ認識モデルである。
論文 参考訳(メタデータ) (2020-07-07T16:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。