論文の概要: Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study
- arxiv url: http://arxiv.org/abs/2412.06272v2
- Date: Thu, 22 May 2025 03:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:21.130155
- Title: Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study
- Title(参考訳): LLMに基づく法律引用予測へのアプローチの評価:ドメイン固有の事前訓練、ファインチューニング、RAG? : ベンチマークとオーストラリアにおける判例研究
- Authors: Jiuzhou Han, Paul Burgess, Ehsan Shareghi,
- Abstract要約: 大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
- 参考スコア(独自算出の注目度): 9.30538764385435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong potential across legal tasks, yet the problem of legal citation prediction remains under-explored. At its core, this task demands fine-grained contextual understanding and precise identification of relevant legislation or precedent. We introduce the AusLaw Citation Benchmark, a real-world dataset comprising 55k Australian legal instances and 18,677 unique citations which to the best of our knowledge is the first of its scale and scope. We then conduct a systematic benchmarking across a range of solutions: (i) standard prompting of both general and law-specialised LLMs, (ii) retrieval-only pipelines with both generic and domain-specific embeddings, (iii) supervised fine-tuning, and (iv) several hybrid strategies that combine LLMs with retrieval augmentation through query expansion, voting ensembles, or re-ranking. Results show that neither general nor law-specific LLMs suffice as stand-alone solutions, with performance near zero. Instruction tuning (of even a generic open-source LLM) on task-specific dataset is among the best performing solutions. We highlight that database granularity along with the type of embeddings play a critical role in retrieval-based approaches, with hybrid methods which utilise a trained re-ranker delivering the best results. Despite this, a performance gap of nearly 50% remains, underscoring the value of this challenging benchmark as a rigorous test-bed for future research in legal-domain.
- Abstract(参考訳): 大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
このタスクの中核は、関連する法律や前例を詳細に理解し、正確に識別することである。
AusLaw Citation Benchmarkは、オーストラリアで55万の法的なインスタンスと18,677のユニークな引用からなる実世界のデータセットで、私たちの知る限りでは、そのスケールとスコープの最初のものである。
次に、さまざまなソリューションのシステマティックなベンチマークを実施します。
一 一般及び法定LLMの標準推進
(ii)ジェネリックおよびドメイン固有の埋め込みを伴う検索専用パイプライン。
三 監督微調整、及び
(4) LLMとクエリ拡張、投票アンサンブル、再ランク付けによる検索強化を組み合わせたハイブリッド戦略。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
タスク固有のデータセットに対するインストラクションチューニング(汎用的なオープンソース LLM でさえも)は、最も優れたソリューションである。
データベースの粒度と埋め込みの種類が検索ベースアプローチにおいて重要な役割を担っており、トレーニングされた再ランカが最良の結果を提供するハイブリッド手法が有効である点を強調した。
それにもかかわらず、パフォーマンスのギャップは50%近く残っており、この挑戦的なベンチマークの価値を、将来の法律領域における研究の厳格なテストベッドとして強調している。
関連論文リスト
- On the Suitability of pre-trained foundational LLMs for Analysis in German Legal Education [1.7977968161686195]
現状のオープンソース基盤LPMには,教育的文脈における法的分析に十分な指導能力とドイツの法的背景知識が備わっていることを示す。
しかしながら、モデル機能は、"Gutachtenstil"評価スタイルコンポーネントの分類など、非常に特殊なタスクで分解される。
本稿では、高可用性シナリオにおける予測を大幅に改善する検索拡張生成に基づくプロンプト例選択手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T13:54:57Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval [6.952344923975001]
本研究は,大規模言語モデル(LLM)の論理的推論能力を活用し,関連する法的用語を特定することに焦点を当てる。
提案する検索システムは,検索精度を向上させるために,用語ベースの拡張とクエリ再構成の付加情報を統合する。
COLIEE 2022とCOLIEE 2023データセットの実験は、LLMからの余分な知識が語彙的および意味的ランキングモデルの検索結果の改善に役立つことを示している。
論文 参考訳(メタデータ) (2024-10-16T01:34:14Z) - LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。