論文の概要: STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals
- arxiv url: http://arxiv.org/abs/2406.15313v1
- Date: Fri, 21 Jun 2024 17:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 12:53:38.493333
- Title: STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals
- Title(参考訳): STARD: 非プロフェッショナルが発行したリアルなクエリを備えた中国の統計検索データセット
- Authors: Weihang Su, Yiran Hu, Anzhe Xie, Qingyao Ai, Zibing Que, Ning Zheng, Yun Liu, Weixing Shen, Yiqun Liu,
- Abstract要約: ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。
既存の法定検索ベンチマークは、司法試験や訴訟文書などのソースからの形式的および専門的なクエリに焦点を当てている。
このギャップに対処するため、STAtute Retrieval データセット(STARD)を導入します。
既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。
- 参考スコア(独自算出の注目度): 14.002280587675175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statute retrieval aims to find relevant statutory articles for specific queries. This process is the basis of a wide range of legal applications such as legal advice, automated judicial decisions, legal document drafting, etc. Existing statute retrieval benchmarks focus on formal and professional queries from sources like bar exams and legal case documents, thereby neglecting non-professional queries from the general public, which often lack precise legal terminology and references. To address this gap, we introduce the STAtute Retrieval Dataset (STARD), a Chinese dataset comprising 1,543 query cases collected from real-world legal consultations and 55,348 candidate statutory articles. Unlike existing statute retrieval datasets, which primarily focus on professional legal queries, STARD captures the complexity and diversity of real queries from the general public. Through a comprehensive evaluation of various retrieval baselines, we reveal that existing retrieval approaches all fall short of these real queries issued by non-professional users. The best method only achieves a Recall@100 of 0.907, suggesting the necessity for further exploration and additional research in this area. All the codes and datasets are available at: https://github.com/oneal2000/STARD/tree/main
- Abstract(参考訳): ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。
このプロセスは、法的な助言、自動化された司法判断、法的文書の起草など、幅広い法的応用の基礎となっている。
既存の法定検索ベンチマークでは、司法試験や訴訟文書などのソースからの正式なクエリと専門的なクエリに焦点が当てられている。
このギャップに対処するために,現実世界の法的協議から収集された1,543のクエリケースと,55,348の候補法定項目からなる中国語データセットであるSTAtute Retrieval Dataset (STARD)を紹介した。
専門的な法的クエリに重点を置く既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。
各種検索基準を総合的に評価することにより, 既存の検索手法は, プロでないユーザによる実際のクエリには及ばないことが明らかとなった。
最良の方法は0.907のRecall@100しか達成せず、さらなる探査とさらなる研究の必要性を示唆している。
https://github.com/oneal2000/STARD/tree/main
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
brightbenchmarkは、さまざまなドメインから収集された1,398の現実世界のクエリから構築されている。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case Reformulation [22.85652668826498]
本稿では,大言語モデル(LLM)に基づく法的な知識誘導型事例修正手法であるKELLERを紹介する。
犯罪や法律記事に関する専門的な法的知識を取り入れることで、大規模な言語モデルにより、原訴訟を犯罪の簡潔なサブファクトに正確に修正することができる。
論文 参考訳(メタデータ) (2024-06-28T08:59:45Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - An Intent Taxonomy of Legal Case Retrieval [43.22489520922202]
訴訟検索は、訴訟文書に焦点をあてた特別情報検索(IR)タスクである。
判例検索の新しい階層的意図分類法を提案する。
判例検索において,検索意図の違いによるユーザの行動と満足度に有意な差が認められた。
論文 参考訳(メタデータ) (2023-07-25T07:27:32Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Case law retrieval: problems, methods, challenges and evaluations in the
last 20 years [23.13408774493739]
我々は過去20年間の事例法検索の方法を調査した。
今後、事例法検索システムの評価に直面する課題と課題について概説する。
論文 参考訳(メタデータ) (2022-02-15T06:01:36Z) - A Statutory Article Retrieval Dataset in French [4.082216579462797]
ベルギー法令検索データセット(BSARD)について紹介する。
BSARDは、経験豊富な法学者によってラベル付けされた1,100以上のフランス原住民の法的問題と、22,600以上のベルギー法記事のコーパスから関連する記事で構成されている。
項重み付けとプール埋め込みに基づく教師なし情報検索手法のベンチマークを行った。
私たちの最高のパフォーマンスベースラインは50.8%のR@100を達成しています。
論文 参考訳(メタデータ) (2021-08-26T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。