論文の概要: Resolving Legalese: A Multilingual Exploration of Negation Scope
Resolution in Legal Documents
- arxiv url: http://arxiv.org/abs/2309.08695v1
- Date: Fri, 15 Sep 2023 18:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:52:09.364241
- Title: Resolving Legalese: A Multilingual Exploration of Negation Scope
Resolution in Legal Documents
- Title(参考訳): 法的文書における否定スコープ解決の多言語的探索
- Authors: Ramona Christen, Anastassia Shaitarova, Matthias St\"urmer, Joel
Niklaus
- Abstract要約: 法的テキストの複雑さと注釈付きドメイン内否定コーパスの欠如は、最先端(SotA)モデルに課題をもたらす。
本実験は, 法的なデータを持たない事前学習モデルにおいて, 否定範囲解決の課題において過小評価されていることを示す。
我々は、ドイツ語、フランス語、イタリア語で注釈付き裁判所決定のセットを新たにリリースし、ゼロショットとマルチランガルの両方の設定における否定範囲の解決を改善するためにそれを使用します。
- 参考スコア(独自算出の注目度): 3.8467652838774873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resolving the scope of a negation within a sentence is a challenging NLP
task. The complexity of legal texts and the lack of annotated in-domain
negation corpora pose challenges for state-of-the-art (SotA) models when
performing negation scope resolution on multilingual legal data. Our
experiments demonstrate that models pre-trained without legal data underperform
in the task of negation scope resolution. Our experiments, using language
models exclusively fine-tuned on domains like literary texts and medical data,
yield inferior results compared to the outcomes documented in prior
cross-domain experiments. We release a new set of annotated court decisions in
German, French, and Italian and use it to improve negation scope resolution in
both zero-shot and multilingual settings. We achieve token-level F1-scores of
up to 86.7% in our zero-shot cross-lingual experiments, where the models are
trained on two languages of our legal datasets and evaluated on the third. Our
multilingual experiments, where the models were trained on all available
negation data and evaluated on our legal datasets, resulted in F1-scores of up
to 91.1%.
- Abstract(参考訳): 文内の否定の範囲を解消することは難解なNLP課題である。
法的テキストの複雑さと注釈付きドメイン内否定コーパスの欠如は、多言語法的データに対する否定範囲の解決を行う際に、最先端技術(SotA)モデルに課題をもたらす。
実験により, 法的なデータを用いずに事前学習したモデルが, 否定範囲の解決作業において低調であることを実証した。
文献や医学データなどのドメインでのみ微調整された言語モデルを用いた実験は,先行するクロスドメイン実験で記録された結果と比較して劣る結果をもたらす。
私たちは、ドイツ語、フランス語、イタリア語の注釈付き裁判所決定のセットを新たにリリースし、ゼロショットとマルチリンガルの両方でネゲーションスコープの解決を改善するために使用します。
ゼロショットクロスリンガル実験ではトークンレベルのf1-scoreを最大86.7%達成し、そのモデルが法律データセットの2つの言語でトレーニングされ、第3言語で評価されます。
利用可能な全ての否定データに基づいてモデルを訓練し、法的なデータセットで評価した多言語実験では、最大91.1%のf1スコアが得られた。
関連論文リスト
- The Factuality of Large Language Models in the Legal Domain [8.111302195052641]
本稿では,法域における知識基盤としての大規模言語モデル(LLM)の事実性について検討する。
事例法と法律に関する多様な事実質問のデータセットを設計する。
次に、データセットを用いて、精度、エイリアス、ファジィマッチングなど、異なる評価手法で複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-09-18T08:30:20Z) - AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts [4.427516854041417]
AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
論文 参考訳(メタデータ) (2024-06-10T21:27:13Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。
我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。
CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文 参考訳(メタデータ) (2023-05-02T05:52:03Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。