論文の概要: Classifying Crime Types using Judgment Documents from Social Media
- arxiv url: http://arxiv.org/abs/2306.17020v1
- Date: Thu, 29 Jun 2023 15:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:47:59.309511
- Title: Classifying Crime Types using Judgment Documents from Social Media
- Title(参考訳): ソーシャルメディアから判断文書を用いた犯罪タイプ分類
- Authors: Haoxuan Xu, Zeyu He, Mengfan Shen, Songning Lai, Ziqiang Han and Yifan
Peng
- Abstract要約: 犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。
データサンプル自体は、犯罪そのものの性質のため、不均一に分散されます。
本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 8.692549861069788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of determining crime types based on criminal behavior facts has
become a very important and meaningful task in social science. But the problem
facing the field now is that the data samples themselves are unevenly
distributed, due to the nature of the crime itself. At the same time, data sets
in the judicial field are less publicly available, and it is not practical to
produce large data sets for direct training. This article proposes a new
training model to solve this problem through NLP processing methods. We first
propose a Crime Fact Data Preprocessing Module (CFDPM), which can balance the
defects of uneven data set distribution by generating new samples. Then we use
a large open source dataset (CAIL-big) as our pretraining dataset and a small
dataset collected by ourselves for Fine-tuning, giving it good generalization
ability to unfamiliar small datasets. At the same time, we use the improved
Bert model with dynamic masking to improve the model. Experiments show that the
proposed method achieves state-of-the-art results on the present dataset. At
the same time, the effectiveness of module CFDPM is proved by experiments. This
article provides a valuable methodology contribution for classifying social
science texts such as criminal behaviors. Extensive experiments on public
benchmarks show that the proposed method achieves new state-of-the-art results.
- Abstract(参考訳): 犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。
しかし今は、犯罪そのものの性質から、データサンプルそのものが均等に分散している、という問題に直面している。
同時に、司法分野のデータセットは公開されておらず、直接トレーニングのために大規模なデータセットを作成することは実用的ではない。
本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。
まず,新たなサンプル生成により不均一なデータセット分布の欠陥のバランスをとることができる犯罪事実データプリプロセッシングモジュール(cfdpm)を提案する。
次に、事前トレーニングデータセットとして大規模なオープンソースデータセット(CAIL-big)と、ファインチューニングのために自分自身で収集した小さなデータセットを使用します。
同時に、動的マスキングによる改良されたバートモデルを用いてモデルを改善する。
実験により,提案手法が現在のデータセットにおいて最先端の結果が得られることを示す。
同時に,モジュールCFDPMの有効性が実験によって証明された。
本稿では,犯罪行為などの社会科学テキストの分類に有用な方法論について述べる。
公開ベンチマークに関する広範囲な実験により,提案手法が新たな最先端結果が得られることが示された。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Does Data Repair Lead to Fair Models? Curating Contextually Fair Data To
Reduce Model Bias [10.639605996067534]
コンテキスト情報は、より優れた表現を学び、精度を向上させるために、ディープニューラルネットワーク(DNN)にとって貴重なキューである。
COCOでは、多くの対象カテゴリーは、男性よりも男性の方がはるかに高い共起性を持ち、男性に有利なDNNの予測を偏見を与える可能性がある。
本研究では, 変動係数を用いたデータ修復アルゴリズムを導入し, 保護されたクラスに対して, 公平かつ文脈的にバランスの取れたデータをキュレートする。
論文 参考訳(メタデータ) (2021-10-20T06:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。