論文の概要: LJ-Bench: Ontology-Based Benchmark for U.S. Crime
- arxiv url: http://arxiv.org/abs/2603.20572v1
- Date: Sat, 21 Mar 2026 00:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.972484
- Title: LJ-Bench: Ontology-Based Benchmark for U.S. Crime
- Title(参考訳): LJ-ベンチ氏:米国犯罪のオントロジーに基づくベンチマーク
- Authors: Hung Yun Tseng, Wuzhen Li, Blerina Gkotse, Grigorios Chrysos,
- Abstract要約: 既存のベンチマークは、ごく一部の違法行為にのみ焦点を絞っており、法的作業の根拠にはなっていない。
本稿では,モデルパネル法典の法的枠組みに根ざした犯罪関連概念のオントロジーを紹介する。
この構造化された知識は、LJ-Benchの基礎を形成し、LLMの幅広い違法な活動に対する堅牢性を評価するために設計された最初の総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 13.90031857929218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of Large Language Models (LLMs) to provide harmful information remains a significant concern due to the vast breadth of illegal queries they may encounter. Unfortunately, existing benchmarks only focus on a handful types of illegal activities, and are not grounded in legal works. In this work, we introduce an ontology of crime-related concepts grounded in the legal frameworks of Model Panel Code, which serves as an influential reference for criminal law and has been adopted by many U.S. states, and instantiated using Californian Law. This structured knowledge forms the foundation for LJ-Bench, the first comprehensive benchmark designed to evaluate LLM robustness against a wide range of illegal activities. Spanning 76 distinct crime types organized taxonomically, LJ-Bench enables systematic assessment of diverse attacks, revealing valuable insights into LLM vulnerabilities across various crime categories: LLMs exhibit heightened susceptibility to attacks targeting societal harm rather than those directly impacting individuals. Our benchmark aims to facilitate the development of more robust and trustworthy LLMs. The LJ-Bench benchmark and LJ-Ontology, along with experiments implementation for reproducibility are publicly available at https://github.com/AndreaTseng/LJ-Bench.
- Abstract(参考訳): 有害な情報を提供するLarge Language Models (LLMs) の可能性は、彼らが遭遇する可能性のある大量の違法なクエリのために、依然として大きな懸念となっている。
残念ながら、既存のベンチマークはごく一部の違法な活動にのみ焦点を合わせており、法的作業の根拠にはなっていない。
本論では,刑法に影響を及ぼし,多くの州で採用され,カリフォルニア法を用いてインスタンス化されている,モデルパネル法典の法的枠組みに基づく犯罪関連概念のオントロジーを紹介する。
この構造化された知識は、LJ-Benchの基礎を形成し、LLMの幅広い違法な活動に対する堅牢性を評価するために設計された最初の総合的なベンチマークである。
76の異なる犯罪タイプが分類学的に組織化され、LJ-Benchは多様な攻撃の体系的な評価を可能にし、様々な犯罪カテゴリにわたるLSMの脆弱性に関する貴重な洞察を明らかにした。
我々のベンチマークは、より堅牢で信頼性の高いLCMの開発を促進することを目的としている。
LJ-BenchベンチマークとLJ-Ontology、再現性の実験実装はhttps://github.com/AndreaTseng/LJ-Benchで公開されている。
関連論文リスト
- PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。
既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。
我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文 参考訳(メタデータ) (2025-12-04T08:48:02Z) - Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文 参考訳(メタデータ) (2025-11-01T00:51:21Z) - PRISON: Unmasking the Criminal Potential of Large Language Models [25.210177069866656]
我々は,大言語モデルの犯罪ポテンシャルを,虚偽の声明,フレームアップ,心理的操作,感情の軽視,道徳的拡張の5つの特徴にまたがって定量化する。
その結果、最先端のLLMは、誤解を招く声明や回避戦術の提案など、創発的な犯罪傾向をしばしば示している。
刑事役のモデルでは、平均44%の精度で偽装行為を認識し、犯罪行為の実行と検出の重大なミスマッチを明らかにしている。
論文 参考訳(メタデータ) (2025-06-19T09:06:27Z) - J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文 参考訳(メタデータ) (2025-03-24T05:42:05Z) - LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models [17.90483181611453]
大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。
既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。
我々は、標準化された総合的な中国の法律ベンチマークLexEvalを紹介する。
論文 参考訳(メタデータ) (2024-09-30T13:44:00Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。