論文の概要: An Agentic Workflow for Detecting Personally Identifiable Information in Crash Narratives
- arxiv url: http://arxiv.org/abs/2604.15369v1
- Date: Wed, 15 Apr 2026 05:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.559032
- Title: An Agentic Workflow for Detecting Personally Identifiable Information in Crash Narratives
- Title(参考訳): クラッシュ・ナラティブにおける個人識別情報検出のためのエージェントワークフロー
- Authors: Junyi Ma, Pei Li, Rui Gan, Kai Cheng, Steven T. Parker, Bin Ran,
- Abstract要約: PIIは軽々しく、矛盾なくクラッシュの物語に現れる。
既存のルールベースのアプローチでは、コンテキスト依存のPIIをキャプチャできないことが多い。
本研究は,事故物語におけるPII検出のための局所展開可能なエージェントワークフローを開発し,評価する。
- 参考スコア(独自算出の注目度): 25.2699036413582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crash narratives in crash reports provide crucial contextual information for traffic safety analysis. Yet, their broader use is hindered by the presence of personally identifiable information (PII), including names, home addresses, and license plate numbers. Because PII appears sparsely and inconsistently in crash narratives, manual detection is not scalable, and existing rule-based approaches often fail to capture context-dependent PII. This study develops and evaluates a locally deployable, agentic workflow for PII detection in crash narratives by leveraging large language models (LLMs). The workflow contains a Hybrid Extractor and a Verifier. The Hybrid Extractor routes structured PII (e.g., phone numbers and email addresses) to a rule-based model (i.e., Presidio) and context-dependent PII (e.g., names, home addresses, and alphanumeric identifiers) to a domain-adapted, fine-tuned LLM. To address ambiguity in challenging categories, the workflow incorporates ensemble LLM extraction and an agentic verification step that filters false detections through evidence-based reasoning. Evaluated on a real-world crash dataset, the agentic workflow achieves strong performance with a precision of 0.82, a recall of 0.94, an F1 of 0.87, and an accuracy of 0.96, outperforming multiple baseline methods. Moreover, the ablation results suggest that ensemble LLM extraction and Verifier offer improved detection for home addresses and alphanumeric identifiers. The workflow runs locally, supporting privacy-sensitive operational settings where external APIs are restricted. This work offers a practical and robust path for scalable, privacy-preserving crash data processing, enabling broader research and safety interventions while safeguarding individual privacy.
- Abstract(参考訳): 事故報告におけるクラッシュの物語は、交通安全分析に重要な文脈情報を提供する。
しかし, 個人識別情報(PII)の存在, 名前, 住所, ナンバーナンバーなどにより, 広範囲にわたる利用が妨げられている。
PIIは、クラッシュの物語においてわずかに一貫性のないように見えるため、手動検出はスケーラブルではなく、既存のルールベースのアプローチは、コンテキスト依存のPIIをキャプチャできないことが多い。
本研究では,大規模言語モデル(LLM)を活用して,クラッシュ物語におけるPII検出のためのローカルデプロイ可能なエージェントワークフローを開発し,評価する。
ワークフローにはHybrid ExtractorとVerifierが含まれている。
ハイブリッドエクストラクタは、PII(例えば、電話番号とメールアドレス)をルールベースのモデル(例えば、Presidio)とコンテキストに依存したPII(例えば、名前、ホームアドレス、アルファ数値識別子)にドメイン順応し、微調整されたLLMにルートする。
難解なカテゴリの曖昧さに対処するため、ワークフローには、アンサンブルLLM抽出と、証拠に基づく推論を通じて偽検出をフィルタリングするエージェント検証ステップが組み込まれている。
実世界のクラッシュデータセットに基づいて評価されたエージェントワークフローは、精度が0.82、リコールが0.94、F1が0.87、精度が0.96で、複数のベースライン法よりも高いパフォーマンスを達成する。
さらに, アンサンブルLLM抽出と検証により, ホームアドレスおよびアルファ数値識別子の検出精度が向上することが示唆された。
ワークフローはローカルで動作し、外部APIが制限されたプライバシに敏感な運用設定をサポートする。
この作業は、スケーラブルでプライバシを保存するクラッシュデータ処理のための実用的で堅牢なパスを提供し、個々のプライバシを保護しながら、広範な研究と安全性の介入を可能にする。
関連論文リスト
- AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents [40.88941407116349]
本稿では,大規模言語モデル(LLM)エージェントにおけるデータオーバー露光(DOE)リスクを検出するための,最初の自動化フレームワークであるAgentRaftを紹介する。
実世界のエージェントツール6,675のテスト環境でAgentRaftを評価した。
論文 参考訳(メタデータ) (2026-03-08T09:40:54Z) - CAPID: Context-Aware PII Detection for Question-Answering Systems [2.538582648751871]
CAPIDは、ローカルに所有する小型言語モデル(SLM)を微調整し、QAのためにLLMに渡される前に機密情報をフィルタリングする実践的手法である。
既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
実験の結果,細調整SLMを用いたPII検出は,既存のベースラインのスパン,関連性,型精度を大きく上回ることがわかった。
論文 参考訳(メタデータ) (2026-02-10T18:41:31Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives [6.91741018994547]
本研究では,コンパクトなオープンソース言語モデルが,クラッシュ物語からの推論集約的な抽出を支援するかどうかを考察する。
我々は,Low-Rank Adaption (LoRA) とBERTを用いて,タスク固有の知識をLLMに注入するための微調整手法を適用した。
さらなる分析により、微調整されたPLMはよりリッチな物語の詳細をキャプチャし、データセット内のいくつかの誤ラベル付きアノテーションを修正できることが明らかになった。
論文 参考訳(メタデータ) (2025-10-10T14:45:07Z) - From Trace to Line: LLM Agent for Real-World OSS Vulnerability Localization [14.474705451897691]
プロジェクトレベルのエンドツーエンドフレームワークであるT2L-Agentは、独自の分析を計画し、モジュールから正確な脆弱なラインまでスコープを狭める。
T2L-ARVOは,5つのクラッシュファミリと実世界のプロジェクトにまたがる,多種多様な,専門家が検証した50ケースのベンチマークです。
T2L-ARVOでは、T2L-Agentは58.0%の検出と54.8%のラインレベルのローカライゼーションを達成する。
論文 参考訳(メタデータ) (2025-09-30T22:27:18Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences [18.36319991890607]
本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
論文 参考訳(メタデータ) (2025-02-12T05:48:57Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。