論文の概要: Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs
- arxiv url: http://arxiv.org/abs/2410.06581v1
- Date: Wed, 09 Oct 2024 06:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:33:11.665548
- Title: Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs
- Title(参考訳): 高品質な合成クエリCandidateペアのスケーリングによる訴訟検索の強化
- Authors: Cheng Gao, Chaojun Xiao, Zhenghao Liu, Huimin Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
- 参考スコア(独自算出の注目度): 67.54302101989542
- License:
- Abstract: Legal case retrieval (LCR) aims to provide similar cases as references for a given fact description. This task is crucial for promoting consistent judgments in similar cases, effectively enhancing judicial fairness and improving work efficiency for judges. However, existing works face two main challenges for real-world applications: existing works mainly focus on case-to-case retrieval using lengthy queries, which does not match real-world scenarios; and the limited data scale, with current datasets containing only hundreds of queries, is insufficient to satisfy the training requirements of existing data-hungry neural models. To address these issues, we introduce an automated method to construct synthetic query-candidate pairs and build the largest LCR dataset to date, LEAD, which is hundreds of times larger than existing datasets. This data construction method can provide ample training signals for LCR models. Experimental results demonstrate that model training with our constructed data can achieve state-of-the-art results on two widely-used LCR benchmarks. Besides, the construction method can also be applied to civil cases and achieve promising results. The data and codes can be found in https://github.com/thunlp/LEAD.
- Abstract(参考訳): 法的事例検索(LCR)は,ある事実記述の参照として類似した事例を提供することを目的としている。
この課題は、同様の場合における一貫した判断を推進し、司法公正性を効果的に強化し、裁判官の作業効率を向上させるために重要である。
しかし、既存の研究は、現実世界のシナリオにマッチしない長大なクエリを使ったケース・ツー・ケースの検索に重点を置いている。
これらの問題に対処するために、合成クエリ候補ペアの構築と、既存のデータセットの数百倍の最大のLCRデータセットであるLEADを構築する自動化手法を導入する。
このデータ構築方法は、LCRモデルに十分な訓練信号を提供することができる。
実験により, 構築したデータを用いたモデルトレーニングにより, 2つのLCRベンチマークの最先端結果が得られた。
また, 建設法は民事事件にも適用でき, 有望な結果が得られる。
データとコードはhttps://github.com/thunlp/LEADで確認できる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - EasyECR: A Library for Easy Implementation and Evaluation of Event Coreference Resolution Models [9.773388073690326]
イベント参照解決(ECR)は、同じ現実世界のイベントを参照するイベント参照をクラスタ化するタスクである。
EasyECRは、データ構造を標準化し、ECRパイプラインを抽象化するために設計された、最初のオープンソースライブラリである。
論文 参考訳(メタデータ) (2024-06-20T08:40:21Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks [29.35269979211728]
CRoWは,6つの実世界のNLPタスクの文脈において,コモンセンス推論を適用するモデルの能力を評価するベンチマークである。
我々は、CRoWを用いて、NLPシステムが、物理的、時間的、社会的推論など、さまざまなコモンセンス知識の次元でどのように機能するかを研究する。
実世界のタスク設定において,NLPシステムが人間に比べてCRoW上で評価される場合,コモンセンス推論が解決されるには程遠いことを示す。
論文 参考訳(メタデータ) (2023-10-23T18:00:23Z) - Efficient and Joint Hyperparameter and Architecture Search for
Collaborative Filtering [31.25094171513831]
協調フィルタリングモデルのための2段階探索アルゴリズムを提案する。
最初の段階では、サブサンプルデータセットからの知識を活用して評価コストを削減します。
第2段階では、データセット全体の上位候補モデルを効率的に微調整する。
論文 参考訳(メタデータ) (2023-07-12T10:56:25Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。