論文の概要: 3CEL: A corpus of legal Spanish contract clauses
- arxiv url: http://arxiv.org/abs/2501.15990v1
- Date: Mon, 27 Jan 2025 12:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:10.092851
- Title: 3CEL: A corpus of legal Spanish contract clauses
- Title(参考訳): 3CEL: スペインの法的契約条項のコーパス
- Authors: Nuria Aldama García, Patricia Marsà Morales, David Betancur Sánchez, Álvaro Barbero Jiménez, Marta Guerrero Nieto, Pablo Haya Coll, Patricia Martín Chozas, Elena Montiel Ponsoda,
- Abstract要約: Legal Spanish Contract Clauses (3CEL)は、INESData 2024のフレームワーク内で開発された契約情報抽出コーパスである。
3CELは、契約の理解とレビューのための重要な情報を特定する19の定義されたカテゴリ(合計タグ4,782個)を使用して、手動で注釈付けされたテンダーを373個含んでいる。
- 参考スコア(独自算出の注目度): 0.39148004372180983
- License:
- Abstract: Legal corpora for Natural Language Processing (NLP) are valuable and scarce resources in languages like Spanish due to two main reasons: data accessibility and legal expert knowledge availability. INESData 2024 is a European Union funded project lead by the Universidad Polit\'ecnica de Madrid (UPM) and developed by Instituto de Ingenier\'ia del Conocimiento (IIC) to create a series of state-of-the-art NLP resources applied to the legal/administrative domain in Spanish. The goal of this paper is to present the Corpus of Legal Spanish Contract Clauses (3CEL), which is a contract information extraction corpus developed within the framework of INESData 2024. 3CEL contains 373 manually annotated tenders using 19 defined categories (4 782 total tags) that identify key information for contract understanding and reviewing.
- Abstract(参考訳): 自然言語処理のための法的なコーパス(NLP)は、データアクセシビリティと法的な専門家の知識の可用性という2つの主な理由から、スペイン語のような言語では貴重なリソースである。
INESData 2024は、マドリード大学(UPM)が主導し、Instituto de Ingenier\'ia del Conocimiento (IIC)が開発し、スペインの法律・行政分野に適用された一連の最先端のNLPリソースを作成するための欧州連合の資金援助プロジェクトである。
本論文の目的は,INESData 2024 の枠組み内で開発された契約情報抽出コーパスである法定契約条項(3CEL)を提示することである。
3CELは、契約の理解とレビューのための重要な情報を特定する19の定義されたカテゴリ(合計タグ4,782個)を使用して、手動で注釈付けされたテンダーを373個含んでいる。
関連論文リスト
- LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering [0.0]
LEGAL-UQAはパキスタンの憲法から派生した最初のウルドゥー語法的問合せデータセットである。
このパラレル・イングリッシュ・ウルドゥデータセットは、619の質問応答ペアを含み、それぞれが対応する法的記事コンテキストを持つ。
我々は、OCR抽出、手動精細化、GPT-4による翻訳およびQAペアの生成を含むデータセット作成プロセスについて述べる。
論文 参考訳(メタデータ) (2024-10-16T20:14:45Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks [75.29561463156635]
ICE-PIXIUは、翻訳された英語とオリジナルの英語のデータセットとともに、中国語のタスクのスペクトルを統合する。
多様なモデル変種への無制限アクセス、多言語および多モーダル命令データのコンパイル、エキスパートアノテーションによる評価ベンチマークを提供する。
論文 参考訳(メタデータ) (2024-03-10T16:22:20Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - NeCo@ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource
Languages through Data Enrichment [2.441072488254427]
本稿では,ベトナムのテキスト処理タスクに対するNeCo Teamのソリューションを,ALQAC 2023(Automated Legal Question Answering Competition 2023)で紹介する。
法的な文書検索タスクでは,類似度ランキングと深層学習モデルを組み合わせた手法が採用されているが,第2の課題では,異なる質問タイプを扱うための適応的手法が提案されている。
提案手法は, 競争の両課題において, 法的分野における質問応答システムの潜在的メリットと有効性を示す, 卓越した結果を達成している。
論文 参考訳(メタデータ) (2023-09-11T14:43:45Z) - Towards Grammatical Tagging for the Legal Language of Cybersecurity [0.0]
法律言語は、典型的には法的職業に従事する人々によって使用される言語として理解することができる。
最近のサイバーセキュリティに関する法律では、明らかに法的言語が使われている。
本稿では,サイバーセキュリティの法的言語の本質的解釈の課題に直面する。
論文 参考訳(メタデータ) (2023-06-29T15:39:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - A Dataset of German Legal Documents for Named Entity Recognition [0.438135876605501]
データセットは約67,000の文と200万以上のトークンで構成されています。
リソースには54,000のアノテーション付きエンティティが含まれており、19のきめ細かいセマンティッククラスにマッピングされている。
さらに、法的文書には35,000以上のTimeMLベースの時間表現が自動的に注釈付けされた。
論文 参考訳(メタデータ) (2020-03-29T13:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。