論文の概要: A Statutory Article Retrieval Dataset in French
- arxiv url: http://arxiv.org/abs/2108.11792v1
- Date: Thu, 26 Aug 2021 13:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:07:17.323262
- Title: A Statutory Article Retrieval Dataset in French
- Title(参考訳): フランス語の法定記事検索データセット
- Authors: Antoine Louis, Gerasimos Spanakis, Gijs Van Dijck
- Abstract要約: ベルギー法令検索データセット(BSARD)について紹介する。
BSARDは、経験豊富な法学者によってラベル付けされた1,100以上のフランス原住民の法的問題と、22,600以上のベルギー法記事のコーパスから関連する記事で構成されている。
項重み付けとプール埋め込みに基づく教師なし情報検索手法のベンチマークを行った。
私たちの最高のパフォーマンスベースラインは50.8%のR@100を達成しています。
- 参考スコア(独自算出の注目度): 4.082216579462797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Statutory article retrieval is the task of automatically retrieving law
articles relevant to a legal question. While recent advances in natural
language processing have sparked considerable interest in many legal tasks,
statutory article retrieval remains primarily untouched due to the scarcity of
large-scale and high-quality annotated datasets. To address this bottleneck, we
introduce the Belgian Statutory Article Retrieval Dataset (BSARD), which
consists of 1,100+ French native legal questions labeled by experienced jurists
with relevant articles from a corpus of 22,600+ Belgian law articles. Using
BSARD, we benchmark several unsupervised information retrieval methods based on
term weighting and pooled embeddings. Our best performing baseline achieves
50.8% R@100, which is promising for the feasibility of the task and indicates
that there is still substantial room for improvement. By the specificity of the
data domain and addressed task, BSARD presents a unique challenge problem for
future research on legal information retrieval.
- Abstract(参考訳): 法定記事検索は、法的問題に関連する法律記事を自動的に検索する作業である。
近年の自然言語処理の進歩は多くの法的タスクに多大な関心が寄せられているが、大規模で高品質な注釈付きデータセットが不足しているため、法定項目の検索は未対応のままである。
このボトルネックに対処するために、ベルギー法定記事検索データセット(bsard)を紹介し、経験豊富な法律家によってラベル付けされた1,100以上のフランス語の法的質問と、ベルギー法記事22,600以上のコーパスから関連する記事からなる。
BSARDを用いて、項重み付けとプール埋め込みに基づく教師なし情報検索手法をベンチマークする。
私たちの最高のパフォーマンスベースラインは、50.8%のr@100を達成しています。
データ領域の特異性と対処課題により、BSARDは法情報検索の今後の研究にユニークな課題を提示している。
関連論文リスト
- Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval [6.952344923975001]
本研究は,大規模言語モデル(LLM)の論理的推論能力を活用し,関連する法的用語を特定することに焦点を当てる。
提案する検索システムは,検索精度を向上させるために,用語ベースの拡張とクエリ再構成の付加情報を統合する。
COLIEE 2022とCOLIEE 2023データセットの実験は、LLMからの余分な知識が語彙的および意味的ランキングモデルの検索結果の改善に役立つことを示している。
論文 参考訳(メタデータ) (2024-10-16T01:34:14Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals [14.002280587675175]
ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。
既存の法定検索ベンチマークは、司法試験や訴訟文書などのソースからの形式的および専門的なクエリに焦点を当てている。
このギャップに対処するため、STAtute Retrieval データセット(STARD)を導入します。
既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。
論文 参考訳(メタデータ) (2024-06-21T17:10:09Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - NeCo@ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource
Languages through Data Enrichment [2.441072488254427]
本稿では,ベトナムのテキスト処理タスクに対するNeCo Teamのソリューションを,ALQAC 2023(Automated Legal Question Answering Competition 2023)で紹介する。
法的な文書検索タスクでは,類似度ランキングと深層学習モデルを組み合わせた手法が採用されているが,第2の課題では,異なる質問タイプを扱うための適応的手法が提案されている。
提案手法は, 競争の両課題において, 法的分野における質問応答システムの潜在的メリットと有効性を示す, 卓越した結果を達成している。
論文 参考訳(メタデータ) (2023-09-11T14:43:45Z) - Generating Natural Language Queries for More Effective Systematic Review
Screening Prioritisation [53.77226503675752]
現在の技術状況では、レビューの最終タイトルをクエリとして、BERTベースのニューラルランクラを使用してドキュメントのランク付けに使用しています。
本稿では,ChatGPT や Alpaca などの命令ベース大規模言語モデルによって生成される文書の検索に使用される Boolean クエリやクエリなど,スクリーニングを優先するクエリの代替源について検討する。
私たちのベストアプローチは、スクリーニング時に利用可能な情報に基づいて実現されるだけでなく、最終タイトルと同じような効果があります。
論文 参考訳(メタデータ) (2023-09-11T05:12:14Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural
Networks [3.5880535198436156]
本稿では,グラフニューラルネットワークを用いて法制構造を組み込んだグラフ拡張高密度法規検索(G-DSR)モデルを提案する。
実験の結果,本手法は,実世界のエキスパートアノテートされたSARデータセットにおいて,強力な検索ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T12:59:09Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Case law retrieval: problems, methods, challenges and evaluations in the
last 20 years [23.13408774493739]
我々は過去20年間の事例法検索の方法を調査した。
今後、事例法検索システムの評価に直面する課題と課題について概説する。
論文 参考訳(メタデータ) (2022-02-15T06:01:36Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。