論文の概要: MASLegalBench: Benchmarking Multi-Agent Systems in Deductive Legal Reasoning
- arxiv url: http://arxiv.org/abs/2509.24922v1
- Date: Mon, 29 Sep 2025 15:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.090765
- Title: MASLegalBench: Benchmarking Multi-Agent Systems in Deductive Legal Reasoning
- Title(参考訳): MASLegalBench: 帰納法推論におけるマルチエージェントシステムのベンチマーク
- Authors: Huihao Jing, Wenbin Hu, Hongyu Luo, Jianhui Yang, Wei Fan, Haoran Li, Yangqiu Song,
- Abstract要約: 大規模言語モデル(LLM)の顕著な機能を活用するマルチエージェントシステム(MAS)は、複雑なタスクに対処する大きな可能性を示している。
従来の研究でLLMエージェントの法的なベンチマークが開発されたが、MASの独特な利点を考えるために特別に設計されたものはない。
提案するMASLegalBenchは,MASに適した法的なベンチマークであり,帰納的推論手法を用いて設計されている。
- 参考スコア(独自算出の注目度): 45.37095206528033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems (MAS), leveraging the remarkable capabilities of Large Language Models (LLMs), show great potential in addressing complex tasks. In this context, integrating MAS with legal tasks is a crucial step. While previous studies have developed legal benchmarks for LLM agents, none are specifically designed to consider the unique advantages of MAS, such as task decomposition, agent specialization, and flexible training. In fact, the lack of evaluation methods limits the potential of MAS in the legal domain. To address this gap, we propose MASLegalBench, a legal benchmark tailored for MAS and designed with a deductive reasoning approach. Our benchmark uses GDPR as the application scenario, encompassing extensive background knowledge and covering complex reasoning processes that effectively reflect the intricacies of real-world legal situations. Furthermore, we manually design various role-based MAS and conduct extensive experiments using different state-of-the-art LLMs. Our results highlight the strengths, limitations, and potential areas for improvement of existing models and MAS architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な機能を活用するマルチエージェントシステム(MAS)は、複雑なタスクに対処する大きな可能性を示している。
この文脈では、MASと法的タスクを統合することが重要なステップである。
従来の研究ではLSMエージェントの法的なベンチマークが開発されていたが、タスク分解、エージェント特殊化、フレキシブルトレーニングといったMASの独特な利点を考えるために特別に設計されたものはない。
実際、評価方法の欠如は法的領域におけるMASの可能性を制限する。
このギャップに対処するために,MASLegalBenchを提案する。
我々のベンチマークでは、GDPRをアプリケーションシナリオとして使用し、背景知識を網羅し、現実世界の法的状況の複雑さを効果的に反映する複雑な推論プロセスを網羅している。
さらに, 手動で様々なロールベースMASを設計し, 最先端のLLMを用いて広範囲な実験を行う。
この結果から,既存のモデルやMASアーキテクチャの改善の強み,限界,潜在的な領域が浮き彫りになった。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration [27.047809869136458]
大きな言語モデル(LLM)は、法的理論を完全に理解し、法的推論タスクを実行するのに苦労する可能性がある。
法理論と推論能力に対するLLMの理解をよりよく評価するための課題(電荷予測の解釈)を導入する。
複雑な法的推論機能を改善するためのマルチエージェントフレームワークも提案する。
論文 参考訳(メタデータ) (2024-10-03T14:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。