論文の概要: Experimenting with Legal AI Solutions: The Case of Question-Answering for Access to Justice
- arxiv url: http://arxiv.org/abs/2409.07713v1
- Date: Thu, 12 Sep 2024 02:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:02:00.533723
- Title: Experimenting with Legal AI Solutions: The Case of Question-Answering for Access to Justice
- Title(参考訳): 法的なAIソリューションによる実験: 司法へのアクセスに関する質問応答の事例
- Authors: Jonathan Li, Rohan Bhambhoria, Samuel Dahan, Xiaodan Zhu,
- Abstract要約: 我々は、データソーシング、推論、評価を対象とする、人間中心の法的NLPパイプラインを提案する。
雇用法から刑事法まで、実際のおよび特定の法的問題を含むデータセット、LegalQAをリリースする。
列車セット内の850個の引用のみからの検索増強生成は、インターネット全体の検索に適合または優れることを示す。
- 参考スコア(独自算出の注目度): 32.550204238857724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI models, such as the GPT and Llama series, have significant potential to assist laypeople in answering legal questions. However, little prior work focuses on the data sourcing, inference, and evaluation of these models in the context of laypersons. To this end, we propose a human-centric legal NLP pipeline, covering data sourcing, inference, and evaluation. We introduce and release a dataset, LegalQA, with real and specific legal questions spanning from employment law to criminal law, corresponding answers written by legal experts, and citations for each answer. We develop an automatic evaluation protocol for this dataset, then show that retrieval-augmented generation from only 850 citations in the train set can match or outperform internet-wide retrieval, despite containing 9 orders of magnitude less data. Finally, we propose future directions for open-sourced efforts, which fall behind closed-sourced models.
- Abstract(参考訳): GPTやLlamaシリーズのようなジェネレーティブAIモデルは、法的な疑問に答えるために一般の人々を支援する大きな可能性を秘めている。
しかし、これまでの研究はほとんどはデータソーシング、推論、そしてそれらのモデルの評価に重点を置いていない。
そこで本研究では,データソーシング,推論,評価を対象とする,人間中心の法的NLPパイプラインを提案する。
我々は、雇用法から刑事法、法の専門家による回答、各回答に対する引用を含む、実際のおよび特定の法的問題を含むデータセット、LegalQAを導入、リリースする。
我々は,このデータセットの自動評価プロトコルを開発し,9桁以下のデータを含むにもかかわらず,列車セット内の850個の引用のみからの検索拡張生成がインターネット全体の検索にマッチまたは上回ることを示す。
最後に、クローズドソースモデルに後れを取っているオープンソース取り組みの今後の方向性を提案する。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals [14.002280587675175]
ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。
既存の法定検索ベンチマークは、司法試験や訴訟文書などのソースからの形式的および専門的なクエリに焦点を当てている。
このギャップに対処するため、STAtute Retrieval データセット(STARD)を導入します。
既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。
論文 参考訳(メタデータ) (2024-06-21T17:10:09Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - The Legal Argument Reasoning Task in Civil Procedure [2.079168053329397]
我々は,米国民事訴訟の領域から新たなNLPタスクとデータセットを提示する。
データセットの各インスタンスは、ケースの一般的な導入、特定の質問、可能な解決策引数で構成されている。
論文 参考訳(メタデータ) (2022-11-05T17:41:00Z) - Should I disclose my dataset? Caveats between reproducibility and
individual data rights [5.816090284071069]
裁判所文書のデジタル利用は研究者の可能性を増大させる。
しかし、個人データ保護法は、データ露出に制限を課している。
我々は,この問題に関する法的・倫理的考察と研究者のガイドラインを提示する。
論文 参考訳(メタデータ) (2022-11-01T14:42:11Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z) - Text-guided Legal Knowledge Graph Reasoning [11.089663225933412]
本稿では,関連する法律規定を予測することを目的とした,新しい法律提供予測(lpp)の適用を提案する。
広東省庁のWebサイトから現実の法的規定データを収集し、LegalLPPという法的データセットを構築します。
論文 参考訳(メタデータ) (2021-04-06T04:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。