Fugu-MT 論文翻訳(概要): LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)

論文の概要: LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)

arxiv url: http://arxiv.org/abs/2310.05620v1
Date: Mon, 9 Oct 2023 11:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 05:18:32.375258
Title: LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)
Title（参考訳）: laiw: 中国の法的大規模言語モデルベンチマーク(技術報告)
Authors: Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie, Yifang Zhang, Weiguang Han, Wei Tian, Hao Wang
Abstract要約: 法的な能力に基づく最初の中国法 LLM ベンチマークを提案する。 LLMの法的な能力は、基本法的なNLP能力、基本法的な応用能力、複雑な法的な応用能力の3つのレベルに分けられる。
参考スコア（独自算出の注目度）: 17.66376880475554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the emergence of numerous legal LLMs, there is currently a lack of a comprehensive benchmark for evaluating their legal abilities. In this paper, we propose the first Chinese Legal LLMs benchmark based on legal capabilities. Through the collaborative efforts of legal and artificial intelligence experts, we divide the legal capabilities of LLMs into three levels: basic legal NLP capability, basic legal application capability, and complex legal application capability. We have completed the first phase of evaluation, which mainly focuses on the capability of basic legal NLP. The evaluation results show that although some legal LLMs have better performance than their backbones, there is still a gap compared to ChatGPT. Our benchmark can be found at URL.
Abstract（参考訳）: 多数の法的 LLM の出現に伴い、現在、法的能力を評価するための包括的なベンチマークが欠如している。本稿では,法律能力に基づく最初の中国の法律LLMベンチマークを提案する。法と人工知能の専門家の協力によって、LLMの法的な能力は、基本的な法的なNLP能力、基本的な法的な応用能力、複雑な法的な応用能力の3つのレベルに分けられる。我々は,基本法的なNLPの能力を中心に,評価の第1段階を完了した。以上の結果から,一部の法的LLMは背骨よりも優れた性能を示したが,ChatGPTと比較してまだギャップがあることがわかった。ベンチマークはURLで確認できます。

関連論文リスト

LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文参考訳（メタデータ） (2025-12-04T08:48:02Z)
CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis [13.067377421250557]
大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
論文参考訳（メタデータ） (2025-09-25T14:19:51Z)
LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文参考訳（メタデータ） (2025-05-19T08:48:12Z)
LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning [12.90492832643565]
既存の法的LLMは一般的な司法質問応答を行うことができるが、それらの数学的推論能力は訓練されていない。現在、法的文脈におけるLLMの推論能力の検証と強化を支援する法的数学的推論データセットが欠如している。我々は、LexPamという、法的手続き的認知によって導かれる強化学習アルゴリズムを導入し、法的シナリオにおける数学的推論能力を向上させる。
論文参考訳（メタデータ） (2025-04-03T13:54:53Z)
LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。 LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文参考訳（メタデータ） (2024-12-23T04:02:46Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文参考訳（メタデータ） (2024-11-15T12:23:12Z)
Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration [27.047809869136458]
大きな言語モデル(LLM)は、法的理論を完全に理解し、法的推論タスクを実行するのに苦労する可能性がある。法理論と推論能力に対するLLMの理解をよりよく評価するための課題(電荷予測の解釈)を導入する。複雑な法的推論機能を改善するためのマルチエージェントフレームワークも提案する。
論文参考訳（メタデータ） (2024-10-03T14:15:00Z)
InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。 InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文参考訳（メタデータ） (2024-06-21T06:19:03Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)
LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文参考訳（メタデータ） (2023-09-28T09:35:59Z)
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文参考訳（メタデータ） (2023-06-12T12:40:48Z)
A Short Survey of Viewing Large Language Models in Legal Aspect [0.0]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。 LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。
論文参考訳（メタデータ） (2023-03-16T08:01:22Z)
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文参考訳（メタデータ） (2021-05-09T09:39:25Z)
How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文参考訳（メタデータ） (2020-04-25T14:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。