論文の概要: Citation Data of Czech Apex Courts
- arxiv url: http://arxiv.org/abs/2002.02224v1
- Date: Thu, 6 Feb 2020 12:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:36:30.687341
- Title: Citation Data of Czech Apex Courts
- Title(参考訳): チェコapex裁判所の引用データ
- Authors: Jakub Hara\v{s}ta, Tereza Novotn\'a, Jarom\'ir \v{S}avelka
- Abstract要約: このデータセットはチェコの裁判所判決のコーパスであるCzCDC 1.0から自動的に抽出された。
パイプラインには、(i)文書セグメンテーションモデルと(ii)参照認識モデルが含まれていた。
データセットは一般向けに提供される予定だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the citation data of the Czech apex courts
(Supreme Court, Supreme Administrative Court and Constitutional Court). This
dataset was automatically extracted from the corpus of texts of Czech court
decisions - CzCDC 1.0. We obtained the citation data by building the natural
language processing pipeline for extraction of the court decision identifiers.
The pipeline included the (i) document segmentation model and the (ii)
reference recognition model. Furthermore, the dataset was manually processed to
achieve high-quality citation data as a base for subsequent qualitative and
quantitative analyses. The dataset will be made available to the general
public.
- Abstract(参考訳): 本稿では,チェコの頂点裁判所(最高裁判所,最高行政裁判所,憲法裁判所)の引用データを紹介する。
このデータセットはチェコの裁判所決定のテキストコーパスから自動的に抽出された。
裁判所決定識別子を抽出するための自然言語処理パイプラインを構築し,引用データを得た。
パイプラインには
(i)文書分割モデルとその方法
(ii)参照認識モデル。
さらにデータセットを手作業で処理し, 質的, 定量的解析のベースとして高品質な引用データを得ることができた。
データセットは一般向けに公開される予定だ。
関連論文リスト
- Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - Automated Extraction of Sentencing Decisions from Court Cases in the
Hebrew Language [8.00388161728995]
ヘブライ語における刑事訴訟の判決における自動処罰抽出(APE)に対処する。
我々は、性的暴行判決のデータセットと手動によるアノテート評価データセットをキュレートする。
教師付きモデルでは、文を精度良く識別できるが、ルールベースのアプローチは完全な APE タスクよりも優れている。
論文 参考訳(メタデータ) (2021-10-24T08:01:41Z) - VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case
Law [12.080138272647144]
本稿では,裁判所意見の引用グラフからなる新たなデータセットを提案する。
我々は、原意見のテキストが直接再利用される、冗長な引用に焦点をあてる。
本稿では,引用グラフに基づく一文書要約タスクとしてハイライト抽出の課題を紹介する。
論文 参考訳(メタデータ) (2021-08-23T12:41:41Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。