Fugu-MT 論文翻訳(概要): Citation Data of Czech Apex Courts

論文の概要: Citation Data of Czech Apex Courts

arxiv url: http://arxiv.org/abs/2002.02224v1
Date: Thu, 6 Feb 2020 12:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 12:36:30.687341
Title: Citation Data of Czech Apex Courts
Title（参考訳）: チェコapex裁判所の引用データ
Authors: Jakub Hara\v{s}ta, Tereza Novotn\'a, Jarom\'ir \v{S}avelka
Abstract要約: このデータセットはチェコの裁判所判決のコーパスであるCzCDC 1.0から自動的に抽出された。パイプラインには、(i)文書セグメンテーションモデルと(ii)参照認識モデルが含まれていた。データセットは一般向けに提供される予定だ。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce the citation data of the Czech apex courts (Supreme Court, Supreme Administrative Court and Constitutional Court). This dataset was automatically extracted from the corpus of texts of Czech court decisions - CzCDC 1.0. We obtained the citation data by building the natural language processing pipeline for extraction of the court decision identifiers. The pipeline included the (i) document segmentation model and the (ii) reference recognition model. Furthermore, the dataset was manually processed to achieve high-quality citation data as a base for subsequent qualitative and quantitative analyses. The dataset will be made available to the general public.
Abstract（参考訳）: 本稿では,チェコの頂点裁判所(最高裁判所,最高行政裁判所,憲法裁判所)の引用データを紹介する。このデータセットはチェコの裁判所決定のテキストコーパスから自動的に抽出された。裁判所決定識別子を抽出するための自然言語処理パイプラインを構築し,引用データを得た。パイプラインには (i)文書分割モデルとその方法 (ii)参照認識モデル。さらにデータセットを手作業で処理し, 質的, 定量的解析のベースとして高品質な引用データを得ることができた。データセットは一般向けに公開される予定だ。

関連論文リスト

Knowledge Graphs Construction from Criminal Court Appeals: Insights from the French Cassation Court [49.1574468325115]
本稿では,フランス・カシエーション裁判所への上訴から知識グラフを構築するための枠組みを提案する。このフレームワークはドメイン固有のオントロジーと派生データセットを含み、構造化された法的データ表現と分析の基礎を提供する。
論文参考訳（メタデータ） (2025-01-24T15:38:32Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文参考訳（メタデータ） (2024-10-17T11:43:16Z)
CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文参考訳（メタデータ） (2024-06-24T23:57:57Z)
ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文参考訳（メタデータ） (2024-06-19T09:16:14Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
InfoCSE: Information-aggregated Contrastive Learning of Sentence Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文参考訳（メタデータ） (2022-10-08T15:53:19Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。 3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文参考訳（メタデータ） (2022-01-26T18:48:42Z)
Automated Extraction of Sentencing Decisions from Court Cases in the Hebrew Language [8.00388161728995]
ヘブライ語における刑事訴訟の判決における自動処罰抽出(APE)に対処する。我々は、性的暴行判決のデータセットと手動によるアノテート評価データセットをキュレートする。教師付きモデルでは、文を精度良く識別できるが、ルールベースのアプローチは完全な APE タスクよりも優れている。
論文参考訳（メタデータ） (2021-10-24T08:01:41Z)
VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case Law [12.080138272647144]
本稿では,裁判所意見の引用グラフからなる新たなデータセットを提案する。我々は、原意見のテキストが直接再利用される、冗長な引用に焦点をあてる。本稿では,引用グラフに基づく一文書要約タスクとしてハイライト抽出の課題を紹介する。
論文参考訳（メタデータ） (2021-08-23T12:41:41Z)
Learning to Summarize Passages: Mining Passage-Summary Pairs from Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文参考訳（メタデータ） (2020-04-06T12:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。