論文の概要: Ready Jurist One: Benchmarking Language Agents for Legal Intelligence in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2507.04037v1
- Date: Sat, 05 Jul 2025 13:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.987586
- Title: Ready Jurist One: Benchmarking Language Agents for Legal Intelligence in Dynamic Environments
- Title(参考訳): Ready Jurist One: 動的環境における法的インテリジェンスのための言語エージェントのベンチマーク
- Authors: Zheng Jia, Shengbin Yue, Wei Chen, Siyuan Wang, Yidong Liu, Yun Song, Zhongyu Wei,
- Abstract要約: LLMをベースとしたエージェントに適した,対話型かつダイナミックな法律環境であるJ1-ENVSを紹介する。
環境複雑さの3段階にわたる中国の法律の6つの代表的なシナリオで構成されている。
また、タスクパフォーマンスと手続き的コンプライアンスの両方を評価するために、きめ細かい評価フレームワークであるJ1-EVALを導入します。
- 参考スコア(独自算出の注目度): 24.249035670782092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The gap between static benchmarks and the dynamic nature of real-world legal practice poses a key barrier to advancing legal intelligence. To this end, we introduce J1-ENVS, the first interactive and dynamic legal environment tailored for LLM-based agents. Guided by legal experts, it comprises six representative scenarios from Chinese legal practices across three levels of environmental complexity. We further introduce J1-EVAL, a fine-grained evaluation framework, designed to assess both task performance and procedural compliance across varying levels of legal proficiency. Extensive experiments on 17 LLM agents reveal that, while many models demonstrate solid legal knowledge, they struggle with procedural execution in dynamic settings. Even the SOTA model, GPT-4o, falls short of 60% overall performance. These findings highlight persistent challenges in achieving dynamic legal intelligence and offer valuable insights to guide future research.
- Abstract(参考訳): 静的ベンチマークと現実の法的な実践のダイナミックな性質のギャップは、法的なインテリジェンスを前進させる上で重要な障壁となる。
この目的のために,LLMをベースとしたエージェントに適した,対話型かつダイナミックな法律環境であるJ1-ENVSを紹介した。
法律の専門家によって指導され、中国の3段階の環境複雑さに関する6つの代表的なシナリオで構成されている。
さらに,J1-EVALは,タスクパフォーマンスと手続き的コンプライアンスの両方を,さまざまなレベルの法的な熟練度で評価するために設計された,きめ細かい評価フレームワークである。
17のLLMエージェントに対する大規模な実験では、多くのモデルがしっかりとした法的な知識を示す一方で、動的環境下での手続き的実行に苦労していることが判明した。
SOTAモデルであるGPT-4oでさえ、全体的な性能は60%に満たない。
これらの発見は、ダイナミックな法的な知性を達成する上での永続的な課題を強調し、将来の研究を導く貴重な洞察を提供する。
関連論文リスト
- RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond [29.03425022434831]
テスト時間スケーリング 大規模言語モデル(LLM)は、様々なドメインやタスク、特に推論において、例外的な機能を示している。
各種法シナリオにおけるLCMの予備的評価について,中国語と英語の両方の法的課題について述べる。
以上の結果から,DeepSeek-R1 と OpenAI o1 が最強モデルであるにもかかわらず,法的理由付け能力は依然として不足していることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T11:14:39Z) - A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.73731245899454]
本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文 参考訳(メタデータ) (2025-03-02T10:26:54Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - AgentCourt: Simulating Court with Adversarial Evolvable Lawyer Agents [25.509677234774056]
AgentCourtは、LLMベースのエージェントの対角的進化を通じて課題に対処する包括的な法的シミュレーションフレームワークである。
1000件の民事事件をシミュレートすることにより、エージェントの法的推論能力を高める進化した知識基盤を構築する。
我々の研究は、法的なAIにおける敵対的学習の重要性を強調し、より広範な司法・規制の文脈にシミュレーションに基づく法的推論を拡張するための有望な方向性を提案する。
論文 参考訳(メタデータ) (2024-08-15T11:33:20Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - AgentsCourt: Building Judicial Decision-Making Agents with Court Debate Simulation and Legal Knowledge Augmentation [19.733007669738008]
本稿では,司法判断のための新しいマルチエージェントフレームワーク,AgentsCourtを提案する。
弊社の枠組みは,裁判所の審理シミュレーション,法的資源の検索,意思決定の洗練など,古典的な審理過程を踏襲している。
この課題を支援するために,多リソースの法知識を持つ大規模法知識基盤であるLegal-KBを構築した。
論文 参考訳(メタデータ) (2024-03-05T13:30:02Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。