論文の概要: Extracting Entities and Topics from News and Connecting Criminal Records
- arxiv url: http://arxiv.org/abs/2005.00950v1
- Date: Sun, 3 May 2020 00:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:52:11.925052
- Title: Extracting Entities and Topics from News and Connecting Criminal Records
- Title(参考訳): ニュースからエンティティとトピックを抽出し、犯罪記録を繋ぐ
- Authors: Quang Pham, Marija Stanojevic, Zoran Obradovic
- Abstract要約: 本稿では,犯罪記録データベースや新聞データベースからエンティティやトピックを抽出する手法を要約する。
統計モデルは、約30,000のニューヨーク・タイムズの記事のトピックの研究に成功している。
分析的アプローチ、特にホットスポットマッピングは、将来犯罪の場所や状況を予測するためにいくつかの研究で使用された。
- 参考スコア(独自算出の注目度): 6.685013315842082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to summarize methodologies used in extracting
entities and topics from a database of criminal records and from a database of
newspapers. Statistical models had successfully been used in studying the
topics of roughly 300,000 New York Times articles. In addition, these models
had also been used to successfully analyze entities related to people,
organizations, and places (D Newman, 2006). Additionally, analytical
approaches, especially in hotspot mapping, were used in some researches with an
aim to predict crime locations and circumstances in the future, and those
approaches had been tested quite successfully (S Chainey, 2008). Based on the
two above notions, this research was performed with the intention to apply data
science techniques in analyzing a big amount of data, selecting valuable
intelligence, clustering violations depending on their types of crime, and
creating a crime graph that changes through time. In this research, the task
was to download criminal datasets from Kaggle and a collection of news articles
from Kaggle and EAGER project databases, and then to merge these datasets into
one general dataset. The most important goal of this project was performing
statistical and natural language processing methods to extract entities and
topics as well as to group similar data points into correct clusters, in order
to understand public data about U.S related crimes better.
- Abstract(参考訳): 本研究の目的は,犯罪記録データベースおよび新聞データベースから実体や話題を抽出する際に用いられる方法論を要約することである。
統計モデルはおよそ30万のnew york timesの記事のトピックの研究に成功している。
さらに、これらのモデルは人、組織、場所に関連するエンティティをうまく分析するためにも使われてきた(D Newman, 2006)。
さらに、将来における犯罪の場所や状況の予測を目的とした分析的アプローチ、特にホットスポットマッピングでは、いくつかの研究で使われており、これらのアプローチはかなり成功した(S Chainey, 2008)。
この2つの概念に基づき、大量のデータを分析し、価値のある知性を選択し、犯罪の種類に応じて違反をクラスタリングし、時間とともに変化する犯罪グラフを作成するために、データサイエンス技術を適用することを意図して研究を行った。
本研究では、KaggleとEAGERプロジェクトデータベースから犯罪データセットとニュース記事のコレクションをダウンロードし、これらのデータセットを1つの一般的なデータセットにマージする。
このプロジェクトの最も重要な目標は、アメリカ関連の犯罪に関する公開データをよりよく理解するために、エンティティやトピックを抽出し、類似のデータポイントを正しいクラスタにグループ化する統計的および自然言語処理手法を実行することだった。
関連論文リスト
- Advancing Crime Linkage Analysis with Machine Learning: A Comprehensive Review and Framework for Data-Driven Approaches [0.0]
犯罪リンケージ(英: Crime linkage)とは、犯罪行為データを分析して、一対または一対の犯罪事件が一連の犯罪に関係しているかどうかを判断する過程である。
本研究の目的は,犯罪リンクにおける機械学習アプローチが直面する課題を理解し,将来的なデータ駆動手法の基盤知識を支援することである。
論文 参考訳(メタデータ) (2024-10-30T18:22:45Z) - Entity Extraction from High-Level Corruption Schemes via Large Language Models [4.820586736502356]
本稿では,ニュース記事中の個人や組織を識別するアルゴリズムとモデルのための,新しいマイクロベンチマークデータセットを提案する。
このデータセットを用いて、金融犯罪関連記事の個人や組織を特定するための実験的な取り組みも報告されている。
論文 参考訳(メタデータ) (2024-09-05T10:27:32Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Classifying Crime Types using Judgment Documents from Social Media [11.16381622758947]
犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。
データサンプル自体は、犯罪そのものの性質のため、不均一に分散されます。
本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-06-29T15:12:24Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Prediction of Homicides in Urban Centers: A Machine Learning Approach [0.8312466807725921]
本研究では、一般的なデータを用いたデータセットを用いて、殺人犯罪を予測する機械学習モデルを提案する。
生成されたデータセット上で、単純で堅牢なアルゴリズムで分析が行われた。
結果は,提案問題のベースラインとみなす。
論文 参考訳(メタデータ) (2020-08-16T19:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。