論文の概要: WCLD: Curated Large Dataset of Criminal Cases from Wisconsin Circuit
Courts
- arxiv url: http://arxiv.org/abs/2310.18724v1
- Date: Sat, 28 Oct 2023 15:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:55:26.478864
- Title: WCLD: Curated Large Dataset of Criminal Cases from Wisconsin Circuit
Courts
- Title(参考訳): wcld:ウィスコンシン州巡回裁判所の刑事事件の大規模なデータセット
- Authors: Elliott Ash, Naman Goel, Nianyun Li, Claudia Marangon, Peiyao Sun
- Abstract要約: WCLDは、ウィスコンシン州の巡回裁判所から150万件の刑事事件をキュレートした大規模なデータセットである。
我々は1970年から2020年までの信頼できる公開データを用いて、過去の犯罪数や再犯の結果などの属性をキュレートした。
- 参考スコア(独自算出の注目度): 7.415975372963897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning based decision-support tools in criminal justice systems are
subjects of intense discussions and academic research. There are important open
questions about the utility and fairness of such tools. Academic researchers
often rely on a few small datasets that are not sufficient to empirically study
various real-world aspects of these questions. In this paper, we contribute
WCLD, a curated large dataset of 1.5 million criminal cases from circuit courts
in the U.S. state of Wisconsin. We used reliable public data from 1970 to 2020
to curate attributes like prior criminal counts and recidivism outcomes. The
dataset contains large number of samples from five racial groups, in addition
to information like sex and age (at judgment and first offense). Other
attributes in this dataset include neighborhood characteristics obtained from
census data, detailed types of offense, charge severity, case decisions,
sentence lengths, year of filing etc. We also provide pseudo-identifiers for
judge, county and zipcode. The dataset will not only enable researchers to more
rigorously study algorithmic fairness in the context of criminal justice, but
also relate algorithmic challenges with various systemic issues. We also
discuss in detail the process of constructing the dataset and provide a
datasheet. The WCLD dataset is available at
\url{https://clezdata.github.io/wcld/}.
- Abstract(参考訳): 刑事司法システムにおける機械学習に基づく意思決定支援ツールは、激しい議論と学術研究の対象である。
このようなツールの有用性と公平性には重要な疑問がある。
学術研究者はしばしば、これらの質問の様々な現実世界の側面を経験的に研究するのに十分でない少数の小さなデータセットに頼っている。
本稿では,米国ウィスコンシン州の巡回裁判所から150万件の刑事事件を収集した大規模データセットであるwcldを提案する。
我々は,1970年から2020年までの信頼性の高い公開データを用いて,犯罪数や共犯結果などの属性を収集した。
データセットには、性別や年齢(判断と初犯)などの情報に加えて、5つの人種グループからの大量のサンプルが含まれている。
このデータセットの他の属性には、国勢調査データから得られた地区特性、詳細な犯罪の種類、料金の重大さ、事例決定、文の長さ、提出年などが含まれる。
また,判断,カウンティ,ジップコードに対する疑似識別器も提供する。
このデータセットは、アルゴリズムの公正性を刑事司法の文脈でより厳格に研究するだけでなく、アルゴリズムの課題をさまざまなシステム的問題に関連付けることができる。
また,データセットの構築プロセスやデータシートについても詳細に論じる。
WCLDデータセットは \url{https://clezdata.github.io/wcld/} で公開されている。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - LeCaRDv2: A Large-Scale Chinese Legal Case Retrieval Dataset [20.315416393247247]
大規模法ケース検索データセットLeCaRDv2(バージョン2)を紹介する。
800のクエリと430万件の刑事事件文書から抽出された55,192の候補で構成されている。
評価,ペナルティ,手順の3つの重要な側面を考慮し,既存の関連基準を充実させる。
データセットのすべてのケースは、刑事法を専門とする複数の法律専門家によって注釈付けされています。
論文 参考訳(メタデータ) (2023-10-26T17:32:55Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Analyzing a Carceral Algorithm used by the Pennsylvania Department of
Corrections [0.0]
本論文は、投獄中の囚人の収容レベルを分類するために使用されるペンシルベニア付加分類ツール(PACT)に焦点を当てる。
この場合のアルゴリズムは、追加の懲戒行為に耐え、必要なプログラミングを完了し、特に仮釈放アルゴリズムに入力される変数に蒸留される経験を得る可能性を決定する。
論文 参考訳(メタデータ) (2021-12-06T18:47:31Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Large image datasets: A pyrrhic win for computer vision? [2.627046865670577]
大規模ビジョンデータセットの問題点と結果について検討する。
我々は,同意や正義の問題などの幅広い問題や,データセットに検証可能なポルノ画像を含めるといった特定の懸念について検討する。
論文 参考訳(メタデータ) (2020-06-24T06:41:32Z) - Extracting Entities and Topics from News and Connecting Criminal Records [6.685013315842082]
本稿では,犯罪記録データベースや新聞データベースからエンティティやトピックを抽出する手法を要約する。
統計モデルは、約30,000のニューヨーク・タイムズの記事のトピックの研究に成功している。
分析的アプローチ、特にホットスポットマッピングは、将来犯罪の場所や状況を予測するためにいくつかの研究で使用された。
論文 参考訳(メタデータ) (2020-05-03T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。