論文の概要: Learning Bill Similarity with Annotated and Augmented Corpora of Bills
- arxiv url: http://arxiv.org/abs/2109.06527v1
- Date: Tue, 14 Sep 2021 08:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:40:16.366632
- Title: Learning Bill Similarity with Annotated and Augmented Corpora of Bills
- Title(参考訳): 注釈付増補コーパスによる法案類似性の学習
- Authors: Jiseon Kim, Elden Griggs, In Song Kim, Alice Oh
- Abstract要約: 我々は,サブセクションレベルで4,721件の請求-請求関係の人間ラベル付きデータセットを構築した。
我々は複雑な紙幣作成過程を模倣して、類似度の異なる合成データを生成する。
トレーニングされたモデルを用いて、セクションレベルの類似点と請求値レベルの類似点を推測する。
- 参考スコア(独自算出の注目度): 9.910141281434319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bill writing is a critical element of representative democracy. However, it
is often overlooked that most legislative bills are derived, or even directly
copied, from other bills. Despite the significance of bill-to-bill linkages for
understanding the legislative process, existing approaches fail to address
semantic similarities across bills, let alone reordering or paraphrasing which
are prevalent in legal document writing. In this paper, we overcome these
limitations by proposing a 5-class classification task that closely reflects
the nature of the bill generation process. In doing so, we construct a
human-labeled dataset of 4,721 bill-to-bill relationships at the
subsection-level and release this annotated dataset to the research community.
To augment the dataset, we generate synthetic data with varying degrees of
similarity, mimicking the complex bill writing process. We use BERT variants
and apply multi-stage training, sequentially fine-tuning our models with
synthetic and human-labeled datasets. We find that the predictive performance
significantly improves when training with both human-labeled and synthetic
data. Finally, we apply our trained model to infer section- and bill-level
similarities. Our analysis shows that the proposed methodology successfully
captures the similarities across legal documents at various levels of
aggregation.
- Abstract(参考訳): 法案の起草は民主主義の代表的要素である。
しかし、ほとんどの立法法案は、他の法案から派生したもの、あるいは直接コピーされたものとしばしば見過ごされる。
立法プロセスを理解するためにビル対ビルの連関が重要であるにもかかわらず、既存のアプローチでは法案間の意味的類似性に対処できず、法的な文書作成で一般的な順序変更やパラフレージングは行わない。
本稿では,請求書生成プロセスの性質を深く反映した5クラス分類タスクを提案することにより,これらの制約を克服する。
そこで我々は,4,721の請求対請求関係の人間ラベルデータセットをサブセクションレベルで構築し,この注釈付きデータセットを研究コミュニティに公開する。
データセットを補強するため, 複雑な請求書作成過程を模倣し, 類似度が異なる合成データを生成する。
BERTの変種を多段階のトレーニングに適用し、合成および人間ラベル付きデータセットでモデルを逐次微調整します。
人ラベルデータと合成データの両方を用いたトレーニングでは,予測性能が有意に向上することがわかった。
最後に、トレーニングされたモデルを用いて、セクションレベルの類似性を推測する。
分析の結果,提案手法は法文書間の類似性を各種の集約レベルで把握することに成功した。
関連論文リスト
- MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - DeepParliament: A Legal domain Benchmark & Dataset for Parliament Bills
Prediction [0.0]
本稿では、請求書とメタデータを収集する法的ドメインベンチマークデータセットであるDeepParliamentを紹介する。
我々は2つの新しいベンチマークを提案する。
この作業は、議会法案の予測タスクを初めて提示する。
論文 参考訳(メタデータ) (2022-11-15T04:55:32Z) - A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction [19.55959053873699]
本稿では,その量的情報を通して問題を観察し,新たなアプローチを提案する。
実体がある種の共通性を示す一方で、他の実体が不足していることを認識しており、これは単語の量的分布に反映できる。
Zipfの法則は、よく適合した採用として現れ、単語から実体へ移行するために、文書内の単語は、一般的で稀なものとして分類される。
論文 参考訳(メタデータ) (2022-05-25T10:22:14Z) - An Evaluation Framework for Legal Document Summarization [1.9709122688953327]
法実務者は、土地紛争、汚職など、様々な分野の実務について、多くの長い訴訟手続を経なければならない。
これらの文書を要約し、事件のカテゴリーに合致する意図のある句を含むことを保証することが重要である。
本稿では, BLEU, ROUGE-Lなどの他の自動指標と比較して, 人間の評価との整合性を示す自動意図ベース要約尺度を提案する。
論文 参考訳(メタデータ) (2022-05-17T16:42:03Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Nutribullets Hybrid: Multi-document Health Summarization [36.95954983680022]
本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。
私たちのフレームワークは、より忠実で関連性があり、集約に敏感な要約につながります。
論文 参考訳(メタデータ) (2021-04-08T01:44:29Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。