Fugu-MT 論文翻訳(概要): TriBench-Ko: Evaluating LLM Risks in Judicial Workflows

論文の概要: TriBench-Ko: Evaluating LLM Risks in Judicial Workflows

arxiv url: http://arxiv.org/abs/2605.03792v1
Date: Tue, 05 May 2026 14:20:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.96863
Title: TriBench-Ko: Evaluating LLM Risks in Judicial Workflows
Title（参考訳）: TriBench-Ko: 司法ワークフローにおけるLCMのリスク評価
Authors: Haesung Lee, Gyubin Choi, Eun-Ju Lee, So-Min Lee, Youkang Ko, Dogyoon Lim, Sung-Kyoung Jang, Yohan Jo,
Abstract要約: TriBench-Koは、大規模言語モデルのデプロイメントリスクを評価するために設計された韓国のベンチマークである。要約、前例検索、法的問題抽出、証拠分析の4つのコアタスクをカバーしている。複数のデプロイメントリスクカテゴリにわたるモデル動作を共同で評価する。
参考スコア（独自算出の注目度）: 10.833772229369226
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are increasingly integrated into legal workflows. However, existing benchmarks primarily address proxy tasks, such as bar examination performance or classification, which fail to capture the performance and risks inherent in day-to-day judicial processes. To address this, we publicly release TriBench-Ko, a Korean benchmark designed to evaluate potential deployment risks of LLMs within the context of verified judicial task requirements. It covers four core tasks: jurisprudence summarization, precedent retrieval, legal issue extraction, and evidence analysis. It jointly assesses model behavior across multiple deployment risk categories, including inaccuracy (hallucination, omission, statutory misapplication), biases (demographic, overcompliance), inconsistencies (prompt sensitivity, non-determinism), and adjudicative overreach. Each item is structured to systematically assess both task performance and a specific risk type based on real judicial decisions. Our evaluation of a range of contemporary LLMs reveals that many models frequently manifest significant risks, most notably struggling with precedent retrieval and failing to capture critical legal information. We provide a comprehensive diagnosis of these LLMs and pinpoint critical areas where LLM-generated outputs in judicial contexts necessitate rigorous inspection and caution. Our dataset and code are available at https://github.com/holi-lab/TriBench-Ko
Abstract（参考訳）: 大規模言語モデル(LLM)は、法的ワークフローにますます統合されている。しかし、既存のベンチマークは、バー検査のパフォーマンスや分類などのプロキシタスクに主に対応しており、日々の司法プロセスに固有のパフォーマンスとリスクをキャプチャできない。この問題を解決するため、我々は、検証された司法業務要件の文脈内でLLMの潜在的展開リスクを評価するために設計された韓国のベンチマークであるTriBench-Koを公開しました。それは、法学的な要約、前例の検索、法的問題抽出、証拠分析の4つの中核的なタスクをカバーしている。それは、不正確(幻覚、省略、法則的誤用)、偏見(デマロジカル、過剰なコンプライアンス)、不整合(急激な感受性、非決定主義)、偏見過剰(英語版)など、複数のデプロイメントリスクカテゴリにわたるモデル行動を共同で評価する。各項目は、実際の司法判断に基づいて、タスクパフォーマンスと特定のリスクタイプの両方を体系的に評価するように構成されている。現代のLSMの評価では、多くのモデルがしばしば重大なリスクを生じさせており、特に前例の検索に苦慮し、重要な法的情報の取得に失敗している。我々は,これらのLCMの包括的診断と,厳密な検査と注意を要する司法的文脈においてLCMが生成するアウトプットが欠かせない重要な領域について述べる。私たちのデータセットとコードはhttps://github.com/holi-lab/TriBench-Koで公開されています。

関連論文リスト

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文参考訳（メタデータ） (2025-11-01T00:51:21Z)
LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。 LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文参考訳（メタデータ） (2024-12-23T04:02:46Z)
Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。 AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文参考訳（メタデータ） (2024-12-09T07:46:14Z)
LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models [17.90483181611453]
大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。我々は、標準化された総合的な中国の法律ベンチマークLexEvalを紹介する。
論文参考訳（メタデータ） (2024-09-30T13:44:00Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。