Fugu-MT 論文翻訳(概要): EUROPA: A Legal Multilingual Keyphrase Generation Dataset

論文の概要: EUROPA: A Legal Multilingual Keyphrase Generation Dataset

arxiv url: http://arxiv.org/abs/2403.00252v1
Date: Fri, 1 Mar 2024 03:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 18:26:54.185888
Title: EUROPA: A Legal Multilingual Keyphrase Generation Dataset
Title（参考訳）: europa: 法的多言語キーフレーズ生成データセット
Authors: Olivier Sala\"un, Fr\'ed\'eric Piedboeuf, Guillaume Le Berre, David Alfonso Hermelo and Philippe Langlais
Abstract要約: 法律領域における多言語キーフレーズ生成のためのデータセットであるEUROPAを提案する。欧州連合司法裁判所(EU)の法的判断から派生したもので、EUの公用語24言語全てに該当する。
参考スコア（独自算出の注目度）: 8.870207234402773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Keyphrase generation has primarily been explored within the context of academic research articles, with a particular focus on scientific domains and the English language. In this work, we present EUROPA, a dataset for multilingual keyphrase generation in the legal domain. It is derived from legal judgments from the Court of Justice of the European Union (EU), and contains instances in all 24 EU official languages. We run multilingual models on our corpus and analyze the results, showing room for improvement on a domain-specific multilingual corpus such as the one we present.
Abstract（参考訳）: キーフレーズの生成は主に学術論文の文脈で研究され、特に科学的領域と英語に焦点が当てられている。本稿では,法律領域における多言語キーフレーズ生成のためのデータセットであるeuropaを提案する。欧州連合司法裁判所(eu)の法的判断から派生したもので、24のeu公式言語に全て含まれている。我々は、コーパス上で多言語モデルを実行し、その結果を分析し、現在のようなドメイン固有の多言語コーパスを改善する余地を示す。

関連論文リスト

LEMUR: A Corpus for Robust Fine-Tuning of Multilingual Law Embedding Models for Retrieval [18.46710400838861]
大規模言語モデル(LLM)は、法律情報へのアクセスにますます利用されている。しかし、その多言語法的設定への展開は、信頼性の低い検索と、ドメイン適応型、オープンな埋め込みモデルの欠如によって制限されている。 LEMURは、EUの環境法律の大規模多言語コーパスであり、24,953のEUR-Lex PDF文書から25の言語をカバーする。
論文参考訳（メタデータ） (2026-02-10T09:20:24Z)
Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文参考訳（メタデータ） (2023-11-03T12:29:11Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文参考訳（メタデータ） (2022-10-24T17:58:59Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文参考訳（メタデータ） (2021-09-24T16:18:53Z)
Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文参考訳（メタデータ） (2021-05-30T00:50:00Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。