Fugu-MT 論文翻訳(概要): CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation

論文の概要: CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation

arxiv url: http://arxiv.org/abs/2406.17186v2
Date: Thu, 27 Jun 2024 15:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 18:27:13.206735
Title: CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation
Title（参考訳）: CLERC: 判例検索と検索強化分析生成のためのデータセット
Authors: Abe Bohan Hou, Orion Weller, Guanghui Qin, Eugene Yang, Dawn Lawrie, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme,
Abstract要約: 我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
参考スコア（独自算出の注目度）: 44.67578050648625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Legal professionals need to write analyses that rely on citations to relevant precedents, i.e., previous case decisions. Intelligent systems assisting legal professionals in writing such documents provide great benefits but are challenging to design. Such systems need to help locate, summarize, and reason over salient precedents in order to be useful. To enable systems for such tasks, we work with legal professionals to transform a large open-source legal corpus into a dataset supporting two important backbone tasks: information retrieval (IR) and retrieval-augmented generation (RAG). This dataset CLERC (Case Law Evaluation Retrieval Corpus), is constructed for training and evaluating models on their ability to (1) find corresponding citations for a given piece of legal analysis and to (2) compile the text of these citations (as well as previous context) into a cogent analysis that supports a reasoning goal. We benchmark state-of-the-art models on CLERC, showing that current approaches still struggle: GPT-4o generates analyses with the highest ROUGE F-scores but hallucinates the most, while zero-shot IR models only achieve 48.3% recall@1000.
Abstract（参考訳）: 法律専門家は、関連する前例、すなわち以前の判例決定に引用に依存する分析を書く必要がある。このような文書を書く際に法律専門家を支援するインテリジェントなシステムは大きな利益をもたらすが、設計は困難である。このようなシステムは、有用であるためには、健全な前例の発見、要約、推論を支援する必要がある。このようなタスクのシステムを実現するために、我々は法律専門家と協力して、大規模なオープンソース法定コーパスを、情報検索(IR)と検索強化生成(RAG)という2つの重要なバックボーンタスクをサポートするデータセットに変換する。このデータセットCLERC(Case Law Evaluation Retrieval Corpus)は、(1)法的な分析の対応する引用を見つけ、(2)これらの引用のテキスト(および以前の文脈)を、推論目標をサポートするコジェント分析にコンパイルする能力に基づいて、モデルを訓練し、評価するために構築される。 GPT-4oは高いROUGE Fスコアを持つ分析結果を生成するが、最も幻覚的であり、ゼロショットIRモデルは48.3%のリコール@1000しか得られない。

関連論文リスト

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
Structured Definitions and Segmentations for Legal Reasoning in LLMs: A Study on Indian Legal Data [27.162165587035176]
大規模な言語モデル(LLM)は、Webからの広範なデータセットに基づいて訓練され、目覚ましい一般的な推論スキルを示す。しかし、主にドメイン固有の事前訓練がないため、法律のような専門分野に苦しむことが多い。従来の研究では、知識ギャップに対処するためのコンテキスト内アプローチを検証し、ドメインの完全な整合性のない新しいドメインにおけるモデル性能を高めてきた。
論文参考訳（メタデータ） (2025-11-14T13:24:00Z)
ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文参考訳（メタデータ） (2025-08-24T07:19:25Z)
A Data Science Approach to Calcutta High Court Judgments: An Efficient LLM and RAG-powered Framework for Summarization and Similar Cases Retrieval [2.359291431338925]
本研究は,Calcutta High Courtの判決を解析するための枠組みを提案する。ペガサスモデルを微調整することにより、判例の要約において大幅な改善が達成される。 RAGベースのフレームワークは、ユーザクエリに応答して、同様のケースを効率的に検索し、徹底的な概要と要約を提供する。
論文参考訳（メタデータ） (2025-06-28T20:24:34Z)
UQLegalAI@COLIEE2025: Advancing Legal Case Retrieval with Large Language Models and Graph Neural Networks [26.294747463024017]
訴訟検索は、関連事例の効率的な識別を容易にすることによって、法的領域において重要な役割を担っている。毎年COLIEE(Conference on Legal Information extract and Entailment)が開催され、評価のためのベンチマークデータセットが更新されている。本稿では,COLIEE 2025のタスク1で2番目に高いチームである UQLegalAI が採用した CaseLink の詳細について述べる。
論文参考訳（メタデータ） (2025-05-27T05:32:50Z)
A Reproducibility Study of Graph-Based Legal Case Retrieval [1.6819960041696331]
CaseLinkは、法的なケース検索のためのグラフベースの方法である。 CaseLinkは、ドキュメントのスタンドアロンレベルを超えるケースの高次の関係をキャプチャする。新たな成果を再現する上での課題が最近強調されている。
論文参考訳（メタデータ） (2025-04-11T10:04:12Z)
Aplicação de Large Language Models na Análise e Síntese de Documentos Jurídicos: Uma Revisão de Literatura [0.0]
大規模言語モデル (LLMs) は、法的文書の分析と合成を最適化するためにますます使われている。本研究の目的は,LLMに適用された技術の現状を法的文脈で把握するために,系統的な文献レビューを行うことである。
論文参考訳（メタデータ） (2025-04-01T12:34:00Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文参考訳（メタデータ） (2024-10-17T11:43:16Z)
Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文参考訳（メタデータ） (2024-10-09T06:26:39Z)
LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れているそこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文参考訳（メタデータ） (2024-07-27T21:51:30Z)
DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-03-27T10:40:14Z)
Using Large Language Models to Support Thematic Analysis in Empirical Legal Studies [0.7673339435080445]
大規模言語モデル(LLM)を用いた法律専門家の効果的な協調を支援する新しい枠組みを提案する。我々は, 盗難に関する刑事裁判所の意見から, 事実のデータセット(n=785)の分析にこの枠組みを用いた。
論文参考訳（メタデータ） (2023-10-28T15:20:44Z)
MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文参考訳（メタデータ） (2023-10-24T08:17:11Z)
Enhancing Pre-Trained Language Models with Sentence Position Embeddings for Rhetorical Roles Recognition in Legal Opinions [0.16385815610837165]
法的意見の規模は増え続けており、法的意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。本稿では,文の位置情報に関する知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。 LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチではパラメータが少なく、計算コストが低下することを示した。
論文参考訳（メタデータ） (2023-10-08T20:33:55Z)
SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T10:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。