論文の概要: Citation Data of Czech Apex Courts
- arxiv url: http://arxiv.org/abs/2002.02224v1
- Date: Thu, 6 Feb 2020 12:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:36:30.687341
- Title: Citation Data of Czech Apex Courts
- Title(参考訳): チェコapex裁判所の引用データ
- Authors: Jakub Hara\v{s}ta, Tereza Novotn\'a, Jarom\'ir \v{S}avelka
- Abstract要約: このデータセットはチェコの裁判所判決のコーパスであるCzCDC 1.0から自動的に抽出された。
パイプラインには、(i)文書セグメンテーションモデルと(ii)参照認識モデルが含まれていた。
データセットは一般向けに提供される予定だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the citation data of the Czech apex courts
(Supreme Court, Supreme Administrative Court and Constitutional Court). This
dataset was automatically extracted from the corpus of texts of Czech court
decisions - CzCDC 1.0. We obtained the citation data by building the natural
language processing pipeline for extraction of the court decision identifiers.
The pipeline included the (i) document segmentation model and the (ii)
reference recognition model. Furthermore, the dataset was manually processed to
achieve high-quality citation data as a base for subsequent qualitative and
quantitative analyses. The dataset will be made available to the general
public.
- Abstract(参考訳): 本稿では,チェコの頂点裁判所(最高裁判所,最高行政裁判所,憲法裁判所)の引用データを紹介する。
このデータセットはチェコの裁判所決定のテキストコーパスから自動的に抽出された。
裁判所決定識別子を抽出するための自然言語処理パイプラインを構築し,引用データを得た。
パイプラインには
(i)文書分割モデルとその方法
(ii)参照認識モデル。
さらにデータセットを手作業で処理し, 質的, 定量的解析のベースとして高品質な引用データを得ることができた。
データセットは一般向けに公開される予定だ。
関連論文リスト
- PSCon: Toward Conversational Product Search [55.94925947614474]
我々は、新しいCPSデータ収集プロトコルと、人間のような会話による製品検索を支援するために設計された新しいCPSデータセットPSConを紹介する。
このデータセットは、人間間データ収集プロトコルを使用して構築され、2つの言語と2つの市場をサポートする。
論文 参考訳(メタデータ) (2025-02-19T17:05:42Z) - Knowledge Graphs Construction from Criminal Court Appeals: Insights from the French Cassation Court [49.1574468325115]
本稿では,フランス・カシエーション裁判所への上訴から知識グラフを構築するための枠組みを提案する。
このフレームワークはドメイン固有のオントロジーと派生データセットを含み、構造化された法的データ表現と分析の基礎を提供する。
論文 参考訳(メタデータ) (2025-01-24T15:38:32Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case
Law [12.080138272647144]
本稿では,裁判所意見の引用グラフからなる新たなデータセットを提案する。
我々は、原意見のテキストが直接再利用される、冗長な引用に焦点をあてる。
本稿では,引用グラフに基づく一文書要約タスクとしてハイライト抽出の課題を紹介する。
論文 参考訳(メタデータ) (2021-08-23T12:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。