論文の概要: LLM-based Embedders for Prior Case Retrieval
- arxiv url: http://arxiv.org/abs/2507.18455v1
- Date: Thu, 24 Jul 2025 14:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.812225
- Title: LLM-based Embedders for Prior Case Retrieval
- Title(参考訳): LLMを用いた先例検索用組込み機
- Authors: Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov,
- Abstract要約: 先行事例検索(英: Prior Case Search, PCR)は、最も関係のある訴訟を自動的に識別することを目的とした情報検索タスクである。
最先端のディープラーニングIR法は2つの主要な課題のため、PCRでは成功していない。
データプライバシの懸念から、利用可能なPCRデータセットのサイズは制限されることが多く、ディープラーニングベースのモデルを効果的にトレーニングすることは困難である。
- 参考スコア(独自算出の注目度): 9.770692788739868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In common law systems, legal professionals such as lawyers and judges rely on precedents to build their arguments. As the volume of cases has grown massively over time, effectively retrieving prior cases has become essential. Prior case retrieval (PCR) is an information retrieval (IR) task that aims to automatically identify the most relevant court cases for a specific query from a large pool of potential candidates. While IR methods have seen several paradigm shifts over the last few years, the vast majority of PCR methods continue to rely on traditional IR methods, such as BM25. The state-of-the-art deep learning IR methods have not been successful in PCR due to two key challenges: i. Lengthy legal text limitation; when using the powerful BERT-based transformer models, there is a limit of input text lengths, which inevitably requires to shorten the input via truncation or division with a loss of legal context information. ii. Lack of legal training data; due to data privacy concerns, available PCR datasets are often limited in size, making it difficult to train deep learning-based models effectively. In this research, we address these challenges by leveraging LLM-based text embedders in PCR. LLM-based embedders support longer input lengths, and since we use them in an unsupervised manner, they do not require training data, addressing both challenges simultaneously. In this paper, we evaluate state-of-the-art LLM-based text embedders in four PCR benchmark datasets and show that they outperform BM25 and supervised transformer-based models.
- Abstract(参考訳): 一般的な法律体系では、弁護士や裁判官のような法律専門家は、議論を立案するために前例に依存している。
ケースの量は時間とともに膨大に増えてきたため、前例を効果的に回収することが不可欠になっている。
PCR (Presideed Case Search) とは、情報検索(IR)タスクであり、潜在的な候補の大きなプールから、特定のクエリに対して最も関連性の高い訴訟を自動的に識別することを目的としている。
IR法はここ数年でいくつかのパラダイムシフトを経験してきたが、PCR法の大部分はBM25のような従来のIR法に依存し続けている。
現在最先端のディープラーニングIR法はPCRでは成功していない。
長文の法定テキスト制限; BERTベースのトランスフォーマーモデルを使用する場合、入力テキスト長の制限がある。
私は...
データプライバシー上の懸念から、PCRデータセットのサイズは制限されることが多く、ディープラーニングベースのモデルを効果的にトレーニングすることは困難である。
本研究では,LLMベースのテキスト埋め込みをPCRに組み込むことにより,これらの課題に対処する。
LLMベースの埋め込みは、長い入力長をサポートし、教師なしの方法で使用するため、トレーニングデータを必要としないため、両方の課題に同時に対処する。
本稿では、4つのPCRベンチマークデータセットにおいて、最先端のLCMベースのテキスト埋め込みを評価し、BM25および教師付きトランスフォーマーベースモデルよりも優れていることを示す。
関連論文リスト
- Segment First, Retrieve Better: Realistic Legal Search via Rhetorical Role-Based Queries [3.552993426200889]
TraceRetrieverは、ケース情報を限定して運用することで、現実世界の法的検索を反映する。
我々のパイプラインはBM25、Vector Database、Cross-Encoderモデルを統合し、Reciprocal Rank Fusionによる最初の結果を組み合わせています。
修辞アノテーションは、インドの判断に基づいて訓練された階層的BiLSTM CRF分類器を用いて生成される。
論文 参考訳(メタデータ) (2025-08-01T14:49:33Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - ECtHR-PCR: A Dataset for Precedent Understanding and Prior Case Retrieval in the European Court of Human Rights [1.3723120574076126]
我々は欧州人権裁判所(ECtHR)の判断に基づく事前事例検索データセットを開発する。
我々は、様々な負のサンプリング戦略を用いて、様々な語彙と密度の検索手法をベンチマークする。
PCRでは,難易度に基づく陰性サンプリングが有効でないことがわかった。
論文 参考訳(メタデータ) (2024-03-31T08:06:54Z) - Enhancing Legal Document Retrieval: A Multi-Phase Approach with Large Language Models [7.299483088092052]
本研究は,検索システムの最終段階として,プロンプトの可能性を最大化することに焦点を当てる。
COLIEE 2023データセットの実験では、LLMのプロンプト技術を検索システムに組み込むことで、検索精度が大幅に向上することが示された。
しかし、誤り解析は、まだ解決が必要な検索システムにおいて、いくつかの既存の問題を明らかにしている。
論文 参考訳(メタデータ) (2024-03-26T20:25:53Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。