論文の概要: LegalBench.PT: A Benchmark for Portuguese Law
- arxiv url: http://arxiv.org/abs/2502.16357v1
- Date: Sat, 22 Feb 2025 21:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:31.367986
- Title: LegalBench.PT: A Benchmark for Portuguese Law
- Title(参考訳): LegalBench.PT: ポルトガルの法律のベンチマーク
- Authors: Beatriz Canaverde, Telmo Pessoa Pires, Leonor Melo Ribeiro, André F. T. Martins,
- Abstract要約: ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。
まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
- 参考スコア(独自算出の注目度): 17.554201334646056
- License:
- Abstract: The recent application of LLMs to the legal field has spurred the creation of benchmarks across various jurisdictions and languages. However, no benchmark has yet been specifically designed for the Portuguese legal system. In this work, we present LegalBench.PT, the first comprehensive legal benchmark covering key areas of Portuguese law. To develop LegalBench.PT, we first collect long-form questions and answers from real law exams, and then use GPT-4o to convert them into multiple-choice, true/false, and matching formats. Once generated, the questions are filtered and processed to improve the quality of the dataset. To ensure accuracy and relevance, we validate our approach by having a legal professional review a sample of the generated questions. Although the questions are synthetically generated, we show that their basis in human-created exams and our rigorous filtering and processing methods applied result in a reliable benchmark for assessing LLMs' legal knowledge and reasoning abilities. Finally, we evaluate the performance of leading LLMs on LegalBench.PT and investigate potential biases in GPT-4o's responses. We also assess the performance of Portuguese lawyers on a sample of questions to establish a baseline for model comparison and validate the benchmark.
- Abstract(参考訳): LLMの法分野への最近の適用は、様々な管轄区域や言語にまたがるベンチマークの作成を加速させた。
しかしながら、ポルトガルの法体系のために特別に設計されたベンチマークはいまだにない。
本稿では,ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークであるLegalBench.PTを紹介する。
LegalBench.PTを開発するために、我々はまず、実法試験から長文の質問と回答を収集し、次にGPT-4oを使用して、それらを多重選択、真/偽、マッチングフォーマットに変換する。
一度生成すると、質問はフィルタリングされ、処理され、データセットの品質が向上する。
正確さと妥当性を確保するため,本稿では,提案した質問のサンプルを法的にレビューすることで,我々のアプローチを検証する。
質問は人工的に生成されるが, 人為的な試験の基礎と厳密なフィルタリングと処理手法が適用された結果, LLMの法的な知識と推論能力を評価するための信頼性の高いベンチマークが得られた。
最後に,LegalBench.PT上でのLCMのリード性能を評価し,GPT-4o応答の潜在的なバイアスについて検討した。
また,ポルトガルの弁護士による質問のサンプルによる評価を行い,モデル比較のベースラインを確立するとともに,ベンチマークの有効性を検証する。
関連論文リスト
- NitiBench: A Comprehensive Studies of LLM Frameworks Capabilities for Thai Legal Question Answering [4.61348190872483]
本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-15T17:52:14Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models [7.797885529152412]
大規模言語モデル (LLM) は法域において顕著な性能を示した。
しかし、その効力は英語以外の言語における非標準化されたタスクやタスクに限られている。
このことは、適用前に各法体系内でのLCMの慎重な評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-11T11:41:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LegalBench: A Collaboratively Built Benchmark for Measuring Legal
Reasoning in Large Language Models [15.98468948605927]
LegalBenchは6種類の法的推論をカバーする162のタスクからなるベンチマークである。
本稿では、LegalBenchについて述べるとともに、20のオープンソースおよび商用LCMの実証的な評価を行い、LegalBenchがもたらす研究のタイプについて説明する。
論文 参考訳(メタデータ) (2023-08-20T22:08:03Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。