論文の概要: Citation Data of Czech Apex Courts
- arxiv url: http://arxiv.org/abs/2002.02224v1
- Date: Thu, 6 Feb 2020 12:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:36:30.687341
- Title: Citation Data of Czech Apex Courts
- Title(参考訳): チェコapex裁判所の引用データ
- Authors: Jakub Hara\v{s}ta, Tereza Novotn\'a, Jarom\'ir \v{S}avelka
- Abstract要約: このデータセットはチェコの裁判所判決のコーパスであるCzCDC 1.0から自動的に抽出された。
パイプラインには、(i)文書セグメンテーションモデルと(ii)参照認識モデルが含まれていた。
データセットは一般向けに提供される予定だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the citation data of the Czech apex courts
(Supreme Court, Supreme Administrative Court and Constitutional Court). This
dataset was automatically extracted from the corpus of texts of Czech court
decisions - CzCDC 1.0. We obtained the citation data by building the natural
language processing pipeline for extraction of the court decision identifiers.
The pipeline included the (i) document segmentation model and the (ii)
reference recognition model. Furthermore, the dataset was manually processed to
achieve high-quality citation data as a base for subsequent qualitative and
quantitative analyses. The dataset will be made available to the general
public.
- Abstract(参考訳): 本稿では,チェコの頂点裁判所(最高裁判所,最高行政裁判所,憲法裁判所)の引用データを紹介する。
このデータセットはチェコの裁判所決定のテキストコーパスから自動的に抽出された。
裁判所決定識別子を抽出するための自然言語処理パイプラインを構築し,引用データを得た。
パイプラインには
(i)文書分割モデルとその方法
(ii)参照認識モデル。
さらにデータセットを手作業で処理し, 質的, 定量的解析のベースとして高品質な引用データを得ることができた。
データセットは一般向けに公開される予定だ。
関連論文リスト
- LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System [0.4764641468273235]
法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
論文 参考訳(メタデータ) (2023-10-02T15:16:31Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts:
The Paragraph-level Topic Representation, Corpus, and Benchmark [68.37789691077892]
タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。
我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。
我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction [0.0]
我々は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に利用できるように、SCOTUS裁判所の高品質なデータセットを作成することを目指している。
先進的なNLPアルゴリズムを用いて以前の訴訟を分析することにより、訓練されたモデルは裁判所の判断を予測し、分類することができる。
論文 参考訳(メタデータ) (2021-12-06T23:19:08Z) - Automated Extraction of Sentencing Decisions from Court Cases in the
Hebrew Language [8.00388161728995]
ヘブライ語における刑事訴訟の判決における自動処罰抽出(APE)に対処する。
我々は、性的暴行判決のデータセットと手動によるアノテート評価データセットをキュレートする。
教師付きモデルでは、文を精度良く識別できるが、ルールベースのアプローチは完全な APE タスクよりも優れている。
論文 参考訳(メタデータ) (2021-10-24T08:01:41Z) - VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case
Law [12.080138272647144]
本稿では,裁判所意見の引用グラフからなる新たなデータセットを提案する。
我々は、原意見のテキストが直接再利用される、冗長な引用に焦点をあてる。
本稿では,引用グラフに基づく一文書要約タスクとしてハイライト抽出の課題を紹介する。
論文 参考訳(メタデータ) (2021-08-23T12:41:41Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。