論文の概要: Unsupervised Simplification of Legal Texts
- arxiv url: http://arxiv.org/abs/2209.00557v1
- Date: Thu, 1 Sep 2022 15:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:15:32.883544
- Title: Unsupervised Simplification of Legal Texts
- Title(参考訳): 法的文書の教師なし簡易化
- Authors: Mert Cemri, Tolga \c{C}ukur, Aykut Ko\c{c}
- Abstract要約: 法律テキスト(USLT)の教師なし簡易化手法を提案する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The processing of legal texts has been developing as an emerging field in
natural language processing (NLP). Legal texts contain unique jargon and
complex linguistic attributes in vocabulary, semantics, syntax, and morphology.
Therefore, the development of text simplification (TS) methods specific to the
legal domain is of paramount importance for facilitating comprehension of legal
text by ordinary people and providing inputs to high-level models for
mainstream legal NLP applications. While a recent study proposed a rule-based
TS method for legal text, learning-based TS in the legal domain has not been
considered previously. Here we introduce an unsupervised simplification method
for legal texts (USLT). USLT performs domain-specific TS by replacing complex
words and splitting long sentences. To this end, USLT detects complex words in
a sentence, generates candidates via a masked-transformer model, and selects a
candidate for substitution based on a rank score. Afterward, USLT recursively
decomposes long sentences into a hierarchy of shorter core and context
sentences while preserving semantic meaning. We demonstrate that USLT
outperforms state-of-the-art domain-general TS methods in text simplicity while
keeping the semantics intact.
- Abstract(参考訳): 法律文書の処理は自然言語処理(NLP)の新たな分野として発展してきた。
法的テキストには独自の用語と、語彙、意味論、構文、形態学における複雑な言語的属性が含まれている。
したがって、法領域特有のts(text simplification)メソッドの開発は、一般人による法典理解の促進や、主流の法定nlpアプリケーションのための高レベルモデルへのインプットの提供において極めて重要である。
最近の研究では、法文の規則に基づくTS法が提案されているが、法域における学習に基づくTS法はこれまで検討されていない。
本稿では,法的テキスト(USLT)の教師なし単純化手法を紹介する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
この目的のために、USLTは文中の複雑な単語を検出し、マスク変換器モデルを介して候補を生成し、ランクスコアに基づいて置換候補を選択する。
その後、USLTは長い文を、意味的な意味を保ちながら、短いコアとコンテキストの文の階層に再帰的に分解する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
関連論文リスト
- LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Unsupervised Sentence Simplification via Dependency Parsing [4.337513096197002]
本稿では,単純だが教師なしの文簡略化システムを提案する。
構文解析と文の埋め込みを利用して言語学的に効果的な単純化を生成する。
我々は、テュルクコルプスの39.13 SARIにおいて、教師なしの最先端を定め、様々な品質指標の教師なしベースラインに対して競争的に行動する。
論文 参考訳(メタデータ) (2022-06-10T07:55:25Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Automatic Lexical Simplification for Turkish [0.0]
トルコ語に対する最初の自動語彙単純化システムを提案する。
近年のテキスト単純化の取り組みは、手作業による簡易コーパスと包括的NLPツールに依存している。
本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
論文 参考訳(メタデータ) (2022-01-15T15:58:44Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Context-Preserving Text Simplification [11.830061911323025]
本稿では、複雑な英語文を単純化された文のセマンティックな階層に分割し、言い換える、文脈保存型テキスト単純化(TS)アプローチを提案する。
言語学的に原則化された変換パターンの集合を用いて、入力文は、修辞的関係を通じてリンクされる中心文と付随する文脈の形式で階層的な表現に変換される。
RST-DTに含まれるアノテーションとの比較分析により,分割文間の文脈的階層を89%の精度で捉え,それらの間に保持される修辞関係の分類において平均69%の精度で到達できることが示された。
論文 参考訳(メタデータ) (2021-05-24T09:54:56Z) - StylePTB: A Compositional Benchmark for Fine-grained Controllable Text
Style Transfer [90.6768813620898]
スタイル転送は、ソース文定数からコアの意味を維持しながら、ターゲットのスタイル変更を伴うテキストを制御的に生成することを目的としています。
テキストの原子語彙,構文,セマンティック,セマンティックトランスファーにまたがる21のきめ細かなスタイリスティックな文を含む大規模ベンチマークであるStylePTBを導入する。
StylePTBの既存のメソッドは、細かい変更をモデル化するのに苦労し、複数のスタイルを構成するのにさらに困難です。
論文 参考訳(メタデータ) (2021-04-12T04:25:09Z) - A Survey on Text Simplification [0.0]
Text Simplification (TS)は、コンテンツの言語的複雑さを減らし、理解しやすくすることを目的としている。
この調査は、TSの包括的な概要を提供し、それ以前に使用されていたアプローチの簡単な説明を含むことを目指している。
論文 参考訳(メタデータ) (2020-08-19T18:12:33Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。