論文の概要: Chinese Labor Law Large Language Model Benchmark
- arxiv url: http://arxiv.org/abs/2601.09972v1
- Date: Thu, 15 Jan 2026 01:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.938294
- Title: Chinese Labor Law Large Language Model Benchmark
- Title(参考訳): 中国労働法大言語モデルベンチマーク
- Authors: Zixun Lan, Maochun Xu, Yifan Ren, Rui Wu, Jianghui Zhou, Xueyang Cheng, Jianan Ding Ding, Xinheng Wang, Mingmin Chi, Fei Ma,
- Abstract要約: 我々は、中国労働法に合わせた大規模言語モデルであるWorkersLawLLMを紹介する。
また、さまざまな労働法タスクをカバーするベンチマークであるBurveLawBenchを紹介します。
実験により、WorkersLawLLMは、汎用および既存の法律固有のLLMよりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 11.552694592413303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have led to substantial progress in domain-specific applications, particularly within the legal domain. However, general-purpose models such as GPT-4 often struggle with specialized subdomains that require precise legal knowledge, complex reasoning, and contextual sensitivity. To address these limitations, we present LabourLawLLM, a legal large language model tailored to Chinese labor law. We also introduce LabourLawBench, a comprehensive benchmark covering diverse labor-law tasks, including legal provision citation, knowledge-based question answering, case classification, compensation computation, named entity recognition, and legal case analysis. Our evaluation framework combines objective metrics (e.g., ROUGE-L, accuracy, F1, and soft-F1) with subjective assessment based on GPT-4 scoring. Experiments show that LabourLawLLM consistently outperforms general-purpose and existing legal-specific LLMs across task categories. Beyond labor law, our methodology provides a scalable approach for building specialized LLMs in other legal subfields, improving accuracy, reliability, and societal value of legal AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に法的領域において、ドメイン固有のアプリケーションに大きな進歩をもたらした。
しかしながら、GPT-4のような汎用モデルは、正確な法的な知識、複雑な推論、文脈感受性を必要とする特殊なサブドメインとしばしば競合する。
これらの制限に対処するため、中国労働法に合わせた法的な大規模言語モデルであるWorkersLawLLMを提示する。
また、法的な規定引用、知識に基づく質問応答、事例分類、補償計算、名前付きエンティティ認識、訴訟分析など、様々な労働法上の課題を網羅する総合的なベンチマークであるWorkersLawBenchを紹介した。
GPT-4スコアリングに基づく主観評価と客観的評価(ROUGE-L,精度,F1,ソフトF1)を組み合わせる。
実験により、WorkersLawLLMはタスクカテゴリ全体にわたる汎用的および既存の法的なLLMを一貫して上回っていることが示された。
労働法以外にも、我々の方法論は、他の法的なサブフィールドに特殊なLLMを構築するためのスケーラブルなアプローチを提供し、法的なAIアプリケーションの正確性、信頼性、社会的価値を改善します。
関連論文リスト
- Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - Universal Legal Article Prediction via Tight Collaboration between Supervised Classification Model and LLM [42.11889345473452]
法律記事予測(LAP)は、法的テキスト分類において重要な課題である。
法律記事予測のための普遍的な枠組みであるUni-LAPを提案する。
論文 参考訳(メタデータ) (2025-09-26T09:42:20Z) - CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis [13.067377421250557]
大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
論文 参考訳(メタデータ) (2025-09-25T14:19:51Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models [7.797885529152412]
大規模言語モデル (LLM) は法域において顕著な性能を示した。
しかし、その効力は英語以外の言語における非標準化されたタスクやタスクに限られている。
このことは、適用前に各法体系内でのLCMの慎重な評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-11T11:41:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。