論文の概要: Regulatory Compliance through Doc2Doc Information Retrieval: A case
study in EU/UK legislation where text similarity has limitations
- arxiv url: http://arxiv.org/abs/2101.10726v1
- Date: Tue, 26 Jan 2021 11:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:49:52.285070
- Title: Regulatory Compliance through Doc2Doc Information Retrieval: A case
study in EU/UK legislation where text similarity has limitations
- Title(参考訳): Doc2Doc情報検索による規制コンプライアンス: テキスト類似性に制限があるEU/UK法におけるケーススタディ
- Authors: Ilias Chalkidis, Manos Fergadiotis, Nikolaos Manginas, Eva Katakalou
and Prodromos Malakasiotis
- Abstract要約: REG-IRは文書間情報検索の応用である。
領域内分類タスクにおけるBERTモデルの微調整は、IRにとって最良の表現であることを示す。
また,矛盾する監督,すなわち類似のクエリ文書対と反対のラベルの組み合わせにより,神経再ランク付けが過小評価されることを示した。
- 参考スコア(独自算出の注目度): 6.40476282000118
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Major scandals in corporate history have urged the need for regulatory
compliance, where organizations need to ensure that their controls (processes)
comply with relevant laws, regulations, and policies. However, keeping track of
the constantly changing legislation is difficult, thus organizations are
increasingly adopting Regulatory Technology (RegTech) to facilitate the
process. To this end, we introduce regulatory information retrieval (REG-IR),
an application of document-to-document information retrieval (DOC2DOC IR),
where the query is an entire document making the task more challenging than
traditional IR where the queries are short. Furthermore, we compile and release
two datasets based on the relationships between EU directives and UK
legislation. We experiment on these datasets using a typical two-step pipeline
approach comprising a pre-fetcher and a neural re-ranker. Experimenting with
various pre-fetchers from BM25 to k nearest neighbors over representations from
several BERT models, we show that fine-tuning a BERT model on an in-domain
classification task produces the best representations for IR. We also show that
neural re-rankers under-perform due to contradicting supervision, i.e., similar
query-document pairs with opposite labels. Thus, they are biased towards the
pre-fetcher's score. Interestingly, applying a date filter further improves the
performance, showcasing the importance of the time dimension.
- Abstract(参考訳): 企業史における大きなスキャンダルは規制遵守の必要性を訴えており、組織は規制(プロセス)が関連する法律、規則、政策に準拠することを保証する必要がある。
しかし、常に変化する法律の追跡は困難であり、組織はプロセスを促進するために規制技術(RegTech)をますます採用している。
そのために、ドキュメントからドキュメントへの情報検索(DOC2DOC IR)のアプリケーションである規制情報検索(REG-IR)を導入し、クエリはドキュメント全体であり、クエリが短い従来のIRよりもタスクがより困難になります。
さらに、EU指令と英国法との関係に基づいて、2つのデータセットをコンパイルしてリリースする。
プレフェッチャーとニューラルリランカからなる典型的な2ステップパイプラインアプローチを用いて,これらのデータセットを実験する。
BM25 から k 近傍への様々なプリフェッチをいくつかの BERT モデルから表現する実験を行い、ドメイン内の分類タスクで BERT モデルを微調整することで、IR に最適な表現が得られることを示した。
また,矛盾する監督,すなわち類似のクエリ文書対と反対のラベルの組み合わせにより,神経再ランク付けが過小評価されることを示した。
したがって、彼らはプレフェッチャーのスコアに偏っている。
興味深いことに、日付フィルターの適用は時間次元の重要性を示す性能を更に改善します。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Query-driven Relevant Paragraph Extraction from Legal Judgments [1.2562034805037443]
法律専門家は、クエリに直接対処する情報をピンポイントするために、長い法的判断をナビゲートすることに悩まされることが多い。
本稿では,クエリに基づく法的判断から関連する段落を抽出する作業に焦点をあてる。
本稿では,欧州人権裁判所(ECtHR)のケース・ロー・ガイドを用いて,この課題のための特別なデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-31T08:03:39Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Identification of Regulatory Requirements Relevant to Business
Processes: A Comparative Study on Generative AI, Embedding-based Ranking,
Crowd and Expert-driven Methods [10.899912290518648]
この研究は、法的およびドメインの専門家が関連する要件を評価するのにどのように役立つかを調べる。
我々は,組込み型NLPランキング法,GPT-4を用いた生成AI法,クラウドソーシング手法を,専門家によるラベル作成の純粋手作業手法と比較した。
BPMN2.0プロセスの両方に対してゴールドスタンダードが作成され、複数の規制文書から現実の要求にマッチします。
論文 参考訳(メタデータ) (2024-01-02T12:08:31Z) - Exploring Semi-supervised Hierarchical Stacked Encoder for Legal
Judgement Prediction [0.6349503549199403]
本研究では,教師なしと教師なしの2段階の分類機構を探索し,提案する。
我々は、ドメイン固有の事前訓練されたBERTを用いて、変換器エンコーダ層でさらに処理する文埋め込みの観点から、長い文書から情報を抽出する。
ILDCデータセット上で提案した手法よりも高い性能向上が期待できる。
論文 参考訳(メタデータ) (2023-11-14T12:03:26Z) - U-CREAT: Unsupervised Case Retrieval using Events extrAcTion [2.2385755093672044]
本稿では, IL-PCR (Indian Legal Prior Case Retrieval) コーパスのための新しいベンチマーク(英語)を提案する。
判例検索におけるイベントの役割について検討し,教師なし検索手法に基づくパイプラインU-CREATを提案する。
提案手法はBM25に比べて性能が著しく向上し,検索精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-11T13:51:12Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。