Fugu-MT 論文翻訳(概要): Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning

論文の概要: Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning

arxiv url: http://arxiv.org/abs/2605.26530v1
Date: Tue, 26 May 2026 04:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.620006
Title: Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning
Title（参考訳）: どんな変化が重要か? 信頼に値する法的なAIを目指して
Authors: Chen Linze, Cai Yufan, Hou Zhe, Dong Jin Song,
Abstract要約: 法的なAIは、法的に無関係な摂動の下で安定していなければならない。本報告では, 公正性, 堅牢性, および法令の混同シナリオにまたがって, 変更すべきこと, 変更すべきでないことを評価する一貫した評価スイートを導入する。本稿では,形式的推論に基づく逆多エージェントフレームワークであるLexGuardを紹介する。
参考スコア（独自算出の注目度）: 11.988348978958376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Legal reasoning requires distinguishing changes that matter from those that do not. Legal AI should remain stable under legally irrelevant perturbations, but should change when perturbations alter legally material points. We formulate this requirement as a legal-relevance-sensitive evaluation problem: LLMs should only be sensitive to the legally relevant change. We introduce a unified evaluation suite covering should-change and should-not-change evaluation across judicial fairness, robustness, and statute-confusion scenarios. Our evaluation shows that existing legal LLMs are systematically sensitive to legally irrelevant variations and often fail to distinguish related legal elements and statutory rules. To mitigate these failures, we present LexGuard, an adversarial multi-agent framework grounded in formal reasoning. LexGuard formalizes statutes into executable constraints, uses adversarial agents to extract competing fact-statute arguments, and invokes SMT solvers to verify legal satisfaction and logical consistency. Experiments show that LexGuard improves legal reasoning reliability by reducing vulnerability to manipulative framing, improving disambiguation among similar statutes, limiting the influence of legally irrelevant attributes, and increasing consistency under benign reformulations. We show that legal trustworthiness requires not only accuracy, but calibrated sensitivity to legally material changes.
Abstract（参考訳）: 法的な推論には、重要でないものから重要な変更を区別する必要がある。法的なAIは、法的に無関係な摂動の下で安定していなければならない。我々は、この要件を法的な関連性に敏感な評価問題として定式化する: LLMは法的に関係のある変更にのみ敏感であるべきである。本報告では, 公正性, 堅牢性, および法令の混同シナリオにまたがって, 変更すべきこと, 変更すべきでないことを評価する一貫した評価スイートを導入する。我々の評価は、既存の法的なLLMは、法的に無関係な変動に対して体系的に敏感であり、しばしば関連する法的な要素と法則の区別に失敗していることを示している。これらの障害を軽減するために,形式的推論を基礎とした対角的マルチエージェントフレームワークであるLexGuardを提案する。 LexGuardは、法令を実行可能な制約に形式化し、敵エージェントを使用して競合するファクト・ルールの議論を抽出し、法的満足度と論理的整合性を検証するためにSMTソルバを起動する。実験により、LexGuardは、マニピュティブフレーミングの脆弱性を低減し、類似の法令間の曖昧さを改善し、法的に無関係な属性の影響を制限し、良心的な改革の下で一貫性を高めることにより、法的推論の信頼性を向上させることが示されている。法的な信頼性は、正確性だけでなく、法的に物質的変化に対する感度の調整も必要であることを示す。

関連論文リスト

LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics [49.3262123849242]
LEGIT(LEGal Issue Trees)は,新しい大規模(24Kインスタンス)の専門家レベルの法的推論データセットである。我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
論文参考訳（メタデータ） (2025-11-30T18:32:43Z)
The Law-Following AI Framework: Legal Foundations and Technical Constraints. Legal Analogues for AI Actorship and technical feasibility of Law Alignment [0.0]
ローフォローAI(Law-Following AI)」は、先進的なAIエージェントのための超越的な設計目標として、法的コンプライアンスを組み込むことを目的としている。エージェントの不正調整に関する最近の研究は、詐欺、脅迫、有害な行為に携わる有能なAIエージェントが、偏見的指示を欠いていることを示している。コンプライアンスと欠陥検出のための"Lex-TruthfulQA"ベンチマーク,(ii)モデル自己概念に合法的な行為を埋め込むアイデンティティ形成介入,(iii)デプロイ後監視のための制御理論尺度を提案する。
論文参考訳（メタデータ） (2025-09-08T16:00:55Z)
GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。 GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文参考訳（メタデータ） (2025-08-22T13:38:12Z)
AUTOLAW: Enhancing Legal Compliance in Large Language Models via Case Law Generation and Jury-Inspired Deliberation [5.732271982985626]
AutoLawは、ドメイン固有の大規模言語モデル(LLM)のための新しい違反検出フレームワークである。 LLMの法的コンプライアンスを強化するために、敵対的なデータ生成と陪審に触発された審議プロセスを組み合わせる。本研究は, 法的不一致を適応的に調査し, 信頼性の高い文脈対応の判断を下すフレームワークの能力を強調した。
論文参考訳（メタデータ） (2025-05-20T07:09:13Z)
Large Language Models in Cryptocurrency Securities Cases: Can a GPT Model Meaningfully Assist Lawyers? [0.3441021278275805]
GPT-3.5の法的推論とChatGPTの法的な起草能力について検討した。我々は実生活の事例からGPT-3.5に事実パターンを供給し、その可能性を正しく判断する能力を評価する。第2に、ChatGPTと弁護士が書いた苦情を審査員に評価させた。
論文参考訳（メタデータ） (2023-08-11T09:23:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。