論文の概要: Simplify Your Law: Using Information Theory to Deduplicate Legal
Documents
- arxiv url: http://arxiv.org/abs/2110.00735v1
- Date: Sat, 2 Oct 2021 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:15:53.186011
- Title: Simplify Your Law: Using Information Theory to Deduplicate Legal
Documents
- Title(参考訳): 法律を単純化する: 情報理論を使って法的文書を複製する
- Authors: Corinna Coupette, Jyotsna Singh, Holger Spamann
- Abstract要約: 法文に対する重複句検出問題を導入し,その解法としてDupexアルゴリズムを提案する。
Dupexは、与えられた入力テキストを最もよく圧縮するパターンと呼ばれる、重複したフレーズの集合を識別する。
- 参考スコア(独自算出の注目度): 1.598510071115958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual redundancy is one of the main challenges to ensuring that legal texts
remain comprehensible and maintainable. Drawing inspiration from the
refactoring literature in software engineering, which has developed methods to
expose and eliminate duplicated code, we introduce the duplicated phrase
detection problem for legal texts and propose the Dupex algorithm to solve it.
Leveraging the Minimum Description Length principle from information theory,
Dupex identifies a set of duplicated phrases, called patterns, that together
best compress a given input text. Through an extensive set of experiments on
the Titles of the United States Code, we confirm that our algorithm works well
in practice: Dupex will help you simplify your law.
- Abstract(参考訳): テキストの冗長性は、法的テキストが理解可能かつ保守可能であることを保証するための大きな課題の1つである。
重複したコードを公開・排除する手法を開発したソフトウェア工学におけるリファクタリング文献からインスピレーションを得て,法文の重複文検出問題を導入し,その解法としてDupexアルゴリズムを提案する。
情報理論の最小記述長原理を活用し、デュペックスは入力テキストを最善に圧縮するパターンと呼ばれる一連の重複句を特定する。
米国コードのタイトルに関する広範な実験を通じて、我々のアルゴリズムが実際にうまく機能していることを確認します。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Medical Text Simplification: Optimizing for Readability with
Unlikelihood Training and Reranked Beam Search Decoding [18.06012822620814]
テキストの単純化は、医学などの専門分野におけるコミュニケーションギャップを埋めるために、AIのますます有用な応用として現れてきた。
顕著な進歩にもかかわらず、医学的単純化の手法は、品質と多様性の低い生成されたテキストをもたらすことがある。
そこで本研究では,より単純な用語を生成するための新たな異義性損失と,シンプルさを最適化する再帰的ビーム探索復号法を提案する。
論文 参考訳(メタデータ) (2023-10-17T12:14:03Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - SimpLex: a lexical text simplification architecture [0.5156484100374059]
簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2023-04-14T08:52:31Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Adversarial Training for Code Retrieval with Question-Description
Relevance Regularization [34.29822107097347]
入力問題から難しいコードスニペットを生成するために,簡単な逆学習手法を適用した。
本稿では,逆学習の規則化に質問記述の関連性を活用することを提案する。
我々の対角学習法は,最先端モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T19:32:03Z) - Explainable Prediction of Text Complexity: The Missing Preliminaries for
Text Simplification [13.447565774887215]
テキストの単純化により、アクセシビリティーのためにプロのコンテンツが複雑になる。
入力テキストの簡易版を直接生成するために、エンドツーエンドのニューラルネットワークモデルが広く採用されている。
テキストの単純化をタスクのコンパクトなパイプラインに分解することで、プロセスの透明性と説明可能性を確保することができることを示す。
論文 参考訳(メタデータ) (2020-07-31T03:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。