論文の概要: A Domain-Adapted Pipeline for Structured Information Extraction from Police Incident Announcements on Social Media
- arxiv url: http://arxiv.org/abs/2512.16183v1
- Date: Thu, 18 Dec 2025 05:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.92128
- Title: A Domain-Adapted Pipeline for Structured Information Extraction from Police Incident Announcements on Social Media
- Title(参考訳): ソーシャルメディア上での警察事件発表からの構造化情報抽出のためのドメイン適応パイプライン
- Authors: Mengfan Shen, Kangqi Song, Xindi Wang, Wei Jia, Tao Wang, Ziqiang Han,
- Abstract要約: 我々は,警察のインシデント発表から構造化情報を取り出すためのドメイン適応抽出パイプラインを開発した。
中国語Weiboの27,822人の警察ブリーフィング投稿から得られた4,933件の高品質で手動の注釈付きデータセットを使用します。
また,LoRAを用いたファインチューニングにより,ベースモデルと命令調整モデルの両方で性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 11.463924147467297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured information extraction from police incident announcements is crucial for timely and accurate data processing, yet presents considerable challenges due to the variability and informal nature of textual sources such as social media posts. To address these challenges, we developed a domain-adapted extraction pipeline that leverages targeted prompt engineering with parameter-efficient fine-tuning of the Qwen2.5-7B model using Low-Rank Adaptation (LoRA). This approach enables the model to handle noisy, heterogeneous text while reliably extracting 15 key fields, including location, event characteristics, and impact assessment, from a high-quality, manually annotated dataset of 4,933 instances derived from 27,822 police briefing posts on Chinese Weibo (2019-2020). Experimental results demonstrated that LoRA-based fine-tuning significantly improved performance over both the base and instruction-tuned models, achieving an accuracy exceeding 98.36% for mortality detection and Exact Match Rates of 95.31% for fatality counts and 95.54% for province-level location extraction. The proposed pipeline thus provides a validated and efficient solution for multi-task structured information extraction in specialized domains, offering a practical framework for transforming unstructured text into reliable structured data in social science research.
- Abstract(参考訳): 警察のインシデント発表からの構造化された情報抽出は、タイムリーかつ正確なデータ処理には不可欠であるが、ソーシャルメディア投稿のようなテキストソースの多様性と非公式性により、かなりの課題が生じる。
これらの課題に対処するため,Low-Rank Adaptation (LoRA) を用いたQwen2.5-7Bモデルのパラメータ効率細調整により,ターゲットとしたプロンプトエンジニアリングを活用するドメイン適応抽出パイプラインを開発した。
このアプローチにより,中国ワイボー(2019-2020)の27,822件の警察ブリーフィングポストから,高品質で手作業による4,933件のアノテートデータセットから,位置,イベント特性,影響評価を含む15項目のキーフィールドを確実に抽出し,ノイズ,異質なテキストを処理することができる。
実験の結果、LoRAをベースとした微調整により、基礎モデルと訓練モデルの両方で性能が大幅に向上し、死亡検出では98.36%、死亡数では95.31%、州レベルの位置抽出では95.54%の精度が達成された。
提案したパイプラインは、特定分野におけるマルチタスク構造化情報抽出のための検証済みかつ効率的なソリューションを提供し、社会科学研究において、非構造化テキストを信頼性の高い構造化データに変換するための実践的なフレームワークを提供する。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition [5.656347355002156]
イベントカメラは、必須のオブジェクト構造を超えた大量の冗長でノイズの多いデータを生成する。
本稿では,イベントベースオブジェクト認識のための適応グラフベースノイズデータ除去フレームワークを提案する。
提案手法は,正規化密度解析,多因子エッジ重み付け機構,適応グラフに基づく認知戦略に基づく適応イベントセグメンテーションを統合する。
論文 参考訳(メタデータ) (2025-05-16T13:26:00Z) - Enhancing Disinformation Detection with Explainable AI and Named Entity Replacement [0.1374949083138427]
モデルバイアスを避けるために、トレーニング前に非形式的要素(URLやエモティコンなど)を擬似匿名化すべきであることを示す。
本手法を,拡張データ前処理および名前付きエンティティ置換の適用前後に,内部データセットと外部データセットを用いて評価する。
その結果, 内部テスト性能を著しく低下させることなく, 外部テストデータを用いた偽情報分類法の平均性能を65.78%向上させることができた。
論文 参考訳(メタデータ) (2025-02-07T12:01:26Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Dual flow fusion model for concrete surface crack segmentation [0.0]
亀裂やその他の損傷は交通インフラの安全運用に重大な脅威をもたらす。
ディープラーニングモデルは、実用的な視覚的セグメンテーションタスクに広く応用されている。
本稿では,二重ストリームの融合に基づくひび割れ分割モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T02:35:58Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Domain Adaptative Causality Encoder [52.779274858332656]
我々は,適応因果同定と局所化の課題に対処するために,依存木の特徴と敵対学習を活用する。
我々は、テキストにあらゆる種類の因果関係を統合する新しい因果関係データセット、MedCausを提案する。
論文 参考訳(メタデータ) (2020-11-27T04:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。