論文の概要: LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources
- arxiv url: http://arxiv.org/abs/2604.06571v1
- Date: Wed, 08 Apr 2026 01:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.290916
- Title: LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources
- Title(参考訳): LLMに基づく不均質データからのミスパーソンインテリジェンス抽出と検証
- Authors: Joshua Castillo, Ravi Mukkamala,
- Abstract要約: 行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。
本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Missing-person and child-safety investigations rely on heterogeneous case documents, including structured forms, bulletin-style posters, and narrative web profiles. Variations in layout, terminology, and data quality impede rapid triage, large-scale analysis, and search-planning workflows. This paper introduces the Guardian Parser Pack, an AI-driven parsing and normalization pipeline that transforms multi-source investigative documents into a unified, schema-compliant representation suitable for operational review and downstream spatial modeling. The proposed system integrates (i) multi-engine PDF text extraction with Optical Character Recognition (OCR) fallback, (ii) rule-based source identification with source-specific parsers, (iii) schema-first harmonization and validation, and (iv) an optional Large Language Model (LLM)-assisted extraction pathway incorporating validator-guided repair and shared geocoding services. We present the system architecture, key implementation decisions, and output design, and evaluate performance using both gold-aligned extraction metrics and corpus-level operational indicators. On a manually aligned subset of 75 cases, the LLM-assisted pathway achieved substantially higher extraction quality than the deterministic comparator (F1 = 0.8664 vs. 0.2578), while across 517 parsed records per pathway it also improved aggregate key-field completeness (96.97\% vs. 93.23\%). The deterministic pathway remained much faster (mean runtime 0.03 s/record vs. 3.95 s/record for the LLM pathway). In the evaluated run, all LLM outputs passed initial schema validation, so validator-guided repair functioned as a built-in safeguard rather than a contributor to the observed gains. These results support controlled use of probabilistic AI within a schema-first, auditable pipeline for high-stakes investigative settings.
- Abstract(参考訳): 行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、迅速なトリアージ、大規模分析、探索計画ワークフローを妨げる。
本稿では,AIによる解析・正規化パイプラインであるGuardian Parser Packを紹介する。
提案システムの統合
(i)OCRフォールバックを用いた多エンジンPDFテキスト抽出
(ii)ソース固有のパーサーによるルールベースのソース識別
三 スキーマ優先の調和及び検証、及び
(iv) バリデータ誘導修復と共有ジオコーディングサービスを組み合わせたLLM(Large Language Model)を用いた抽出経路。
本報告では, システムアーキテクチャ, キー実装決定, 出力設計について述べるとともに, ゴールドアライン抽出指標とコーパスレベルの操作指標を用いて, 性能評価を行う。
手動で調整した75例のサブセットでは、LCM支援経路は決定論的コンパレータ(F1 = 0.8664 vs. 0.2578)よりも抽出品質が大幅に向上し(F1 = 0.8664 vs. 0.2578)、パス毎に517のパースされたレコードを解析することで、集約キーフィールド完全性(96.97\% vs. 93.23\%)も向上した。
決定論的経路はより高速に保たれていた(平均ランタイム 0.03 s/record vs. 3.95 s/record for the LLM pathway)。
評価された実行では、全てのLCM出力が初期スキーマ検証に合格したため、バリデータ誘導修復は、観測されたゲインへのコントリビュータではなく、ビルトインセーフガードとして機能した。
これらの結果は、高度な調査設定のためのスキーマファーストで監査可能なパイプライン内での確率的AIの使用を制御することをサポートする。
関連論文リスト
- GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - Performance Evaluation of LLMs in Automated RDF Knowledge Graph Generation [0.0]
大規模言語モデル(LLM)はRDF知識グラフ生成を自動化するための有望なアプローチを提供する。
我々は,複数のLPMを評価し,制御フレームワークを用いた自動RDF抽出手法を提案する。
Llama は 99.35% の F1 スコアと100% 有効な RDF 出力を達成している。
論文 参考訳(メタデータ) (2026-02-06T06:30:35Z) - ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization [1.580774794371876]
本稿では,高精度な回答抽出と信頼性のある空間的接地を実現するために,専門的なツールを編成するフレームワークであるARIALを提案する。
テキスト精度 (ANLS) と空間精度 (空間精度) を用いて, ARIAL を 4 つのベンチマーク (DocVQA, FUNSD, CORD, SROIE) で評価した。
我々の研究は、特殊ツールのエージェント的オーケストレーションが、パフォーマンスと解釈可能性を同時に改善できることを示す。
論文 参考訳(メタデータ) (2025-11-22T21:09:28Z) - Relational Deep Dive: Error-Aware Queries Over Unstructured Data [9.0236658372663]
ReDD(Relational Deep Dive)は、クエリ固有のスキーマを動的に発見し、リレーショナルテーブルをポップアップさせ、証明可能な保証でエラー認識抽出を保証するフレームワークである。
主な貢献は、カバレッジ保証付きエラー検出の統計的校正手法であるSCAPEと、精度と人的補正コストのトレードオフを最適化するハイブリッドアプローチであるSCAPE-HYBである。
論文 参考訳(メタデータ) (2025-11-04T16:30:55Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - GPT, But Backwards: Exactly Inverting Language Model Outputs [7.736516533045638]
本稿では,Sparse One-Hot Discrete Adam (SODA)アルゴリズムを提案する。
実験では、自然言語とランダム入力の両方において、正確な言語モデルの逆変換が可能であることを示す。
論文 参考訳(メタデータ) (2025-07-02T13:20:30Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。