論文の概要: Unsupervised Simplification of Legal Texts
- arxiv url: http://arxiv.org/abs/2209.00557v1
- Date: Thu, 1 Sep 2022 15:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:15:32.883544
- Title: Unsupervised Simplification of Legal Texts
- Title(参考訳): 法的文書の教師なし簡易化
- Authors: Mert Cemri, Tolga \c{C}ukur, Aykut Ko\c{c}
- Abstract要約: 法律テキスト(USLT)の教師なし簡易化手法を提案する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The processing of legal texts has been developing as an emerging field in
natural language processing (NLP). Legal texts contain unique jargon and
complex linguistic attributes in vocabulary, semantics, syntax, and morphology.
Therefore, the development of text simplification (TS) methods specific to the
legal domain is of paramount importance for facilitating comprehension of legal
text by ordinary people and providing inputs to high-level models for
mainstream legal NLP applications. While a recent study proposed a rule-based
TS method for legal text, learning-based TS in the legal domain has not been
considered previously. Here we introduce an unsupervised simplification method
for legal texts (USLT). USLT performs domain-specific TS by replacing complex
words and splitting long sentences. To this end, USLT detects complex words in
a sentence, generates candidates via a masked-transformer model, and selects a
candidate for substitution based on a rank score. Afterward, USLT recursively
decomposes long sentences into a hierarchy of shorter core and context
sentences while preserving semantic meaning. We demonstrate that USLT
outperforms state-of-the-art domain-general TS methods in text simplicity while
keeping the semantics intact.
- Abstract(参考訳): 法律文書の処理は自然言語処理(NLP)の新たな分野として発展してきた。
法的テキストには独自の用語と、語彙、意味論、構文、形態学における複雑な言語的属性が含まれている。
したがって、法領域特有のts(text simplification)メソッドの開発は、一般人による法典理解の促進や、主流の法定nlpアプリケーションのための高レベルモデルへのインプットの提供において極めて重要である。
最近の研究では、法文の規則に基づくTS法が提案されているが、法域における学習に基づくTS法はこれまで検討されていない。
本稿では,法的テキスト(USLT)の教師なし単純化手法を紹介する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
この目的のために、USLTは文中の複雑な単語を検出し、マスク変換器モデルを介して候補を生成し、ランクスコアに基づいて置換候補を選択する。
その後、USLTは長い文を、意味的な意味を保ちながら、短いコアとコンテキストの文の階層に再帰的に分解する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Enhanced Simultaneous Machine Translation with Word-level Policies [2.12121796606941]
本稿では,サブワードレベルで考案されたポリシーが,ワードレベルで運用するポリシーよりも優れていることを示す。
本稿では,言語モデル(LM)を用いたSiMTモデルの強化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T07:10:42Z) - Discourse-Aware Text Simplification: From Complex Sentences to Linked
Propositions [11.335080241393191]
Text Simplification (TS)は、テキストの処理を容易にするために文を変更することを目的としている。
本稿では、複雑な英語文を分割し、言い換える、談話対応のTSアプローチを提案する。
単純化された文の上に意味層を置く最小命題のセマンティック階層を生成する。
論文 参考訳(メタデータ) (2023-08-01T10:10:59Z) - LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Unsupervised Sentence Simplification via Dependency Parsing [4.337513096197002]
本稿では,単純だが教師なしの文簡略化システムを提案する。
構文解析と文の埋め込みを利用して言語学的に効果的な単純化を生成する。
我々は、テュルクコルプスの39.13 SARIにおいて、教師なしの最先端を定め、様々な品質指標の教師なしベースラインに対して競争的に行動する。
論文 参考訳(メタデータ) (2022-06-10T07:55:25Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A Survey on Text Simplification [0.0]
Text Simplification (TS)は、コンテンツの言語的複雑さを減らし、理解しやすくすることを目的としている。
この調査は、TSの包括的な概要を提供し、それ以前に使用されていたアプローチの簡単な説明を含むことを目指している。
論文 参考訳(メタデータ) (2020-08-19T18:12:33Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。