論文の概要: Extracting Entities and Topics from News and Connecting Criminal Records
- arxiv url: http://arxiv.org/abs/2005.00950v1
- Date: Sun, 3 May 2020 00:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:52:11.925052
- Title: Extracting Entities and Topics from News and Connecting Criminal Records
- Title(参考訳): ニュースからエンティティとトピックを抽出し、犯罪記録を繋ぐ
- Authors: Quang Pham, Marija Stanojevic, Zoran Obradovic
- Abstract要約: 本稿では,犯罪記録データベースや新聞データベースからエンティティやトピックを抽出する手法を要約する。
統計モデルは、約30,000のニューヨーク・タイムズの記事のトピックの研究に成功している。
分析的アプローチ、特にホットスポットマッピングは、将来犯罪の場所や状況を予測するためにいくつかの研究で使用された。
- 参考スコア(独自算出の注目度): 6.685013315842082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to summarize methodologies used in extracting
entities and topics from a database of criminal records and from a database of
newspapers. Statistical models had successfully been used in studying the
topics of roughly 300,000 New York Times articles. In addition, these models
had also been used to successfully analyze entities related to people,
organizations, and places (D Newman, 2006). Additionally, analytical
approaches, especially in hotspot mapping, were used in some researches with an
aim to predict crime locations and circumstances in the future, and those
approaches had been tested quite successfully (S Chainey, 2008). Based on the
two above notions, this research was performed with the intention to apply data
science techniques in analyzing a big amount of data, selecting valuable
intelligence, clustering violations depending on their types of crime, and
creating a crime graph that changes through time. In this research, the task
was to download criminal datasets from Kaggle and a collection of news articles
from Kaggle and EAGER project databases, and then to merge these datasets into
one general dataset. The most important goal of this project was performing
statistical and natural language processing methods to extract entities and
topics as well as to group similar data points into correct clusters, in order
to understand public data about U.S related crimes better.
- Abstract(参考訳): 本研究の目的は,犯罪記録データベースおよび新聞データベースから実体や話題を抽出する際に用いられる方法論を要約することである。
統計モデルはおよそ30万のnew york timesの記事のトピックの研究に成功している。
さらに、これらのモデルは人、組織、場所に関連するエンティティをうまく分析するためにも使われてきた(D Newman, 2006)。
さらに、将来における犯罪の場所や状況の予測を目的とした分析的アプローチ、特にホットスポットマッピングでは、いくつかの研究で使われており、これらのアプローチはかなり成功した(S Chainey, 2008)。
この2つの概念に基づき、大量のデータを分析し、価値のある知性を選択し、犯罪の種類に応じて違反をクラスタリングし、時間とともに変化する犯罪グラフを作成するために、データサイエンス技術を適用することを意図して研究を行った。
本研究では、KaggleとEAGERプロジェクトデータベースから犯罪データセットとニュース記事のコレクションをダウンロードし、これらのデータセットを1つの一般的なデータセットにマージする。
このプロジェクトの最も重要な目標は、アメリカ関連の犯罪に関する公開データをよりよく理解するために、エンティティやトピックを抽出し、類似のデータポイントを正しいクラスタにグループ化する統計的および自然言語処理手法を実行することだった。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Classifying Crime Types using Judgment Documents from Social Media [11.16381622758947]
犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。
データサンプル自体は、犯罪そのものの性質のため、不均一に分散されます。
本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-06-29T15:12:24Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - On Cross-Dataset Generalization in Automatic Detection of Online Abuse [7.163723138100273]
Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。
教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。
頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-10-14T21:47:03Z) - Prediction of Homicides in Urban Centers: A Machine Learning Approach [0.8312466807725921]
本研究では、一般的なデータを用いたデータセットを用いて、殺人犯罪を予測する機械学習モデルを提案する。
生成されたデータセット上で、単純で堅牢なアルゴリズムで分析が行われた。
結果は,提案問題のベースラインとみなす。
論文 参考訳(メタデータ) (2020-08-16T19:13:53Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。