Fugu-MT 論文翻訳(概要): CALRK-Bench: Evaluating Context-Aware Legal Reasoning in Korean Law

論文の概要: CALRK-Bench: Evaluating Context-Aware Legal Reasoning in Korean Law

arxiv url: http://arxiv.org/abs/2603.26332v1
Date: Fri, 27 Mar 2026 11:54:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.47993
Title: CALRK-Bench: Evaluating Context-Aware Legal Reasoning in Korean Law
Title（参考訳）: CALRK-Bench:韓国法における文脈対応法理推論の評価
Authors: JiHyeok Jung, TaeYoung Yoon, HyunSouk Cho,
Abstract要約: 韓国の法体系に基づく文脈対応法理推論ベンチマークCALRK-Benchを提案する。 CALRK-Benchは、モデルが法的規範の時間的正当性を識別できるかどうかを評価し、所定のケースで十分な法的情報が利用できるかどうかを判断し、法的判断のシフトの背後にある理由を理解する。
参考スコア（独自算出の注目度）: 6.44766672234951
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Legal reasoning requires not only the application of legal rules but also an understanding of the context in which those rules operate. However, existing legal benchmarks primarily evaluate rule application under the assumption of fixed norms, and thus fail to capture situations where legal judgments shift or where multiple norms interact. In this work, we propose CALRK-Bench, a context-aware legal reasoning benchmark based on the legal system in Korean. CALRK-Bench evaluates whether models can identify the temporal validity of legal norms, determine whether sufficient legal information is available for a given case, and understand the reasons behind shifts in legal judgments. The dataset is constructed from legal precedents and legal consultation records, and is validated by legal experts. Experimental results show that even recent large language models consistently exhibit low performance on these three tasks. CALRK-Bench provides a new stress test for evaluating context-aware legal reasoning rather than simple memorization of legal knowledge. Our code is available at https://github.com/jhCOR/CALRKBench.
Abstract（参考訳）: 法的な推論には、法的規則の適用だけでなく、これらの規則が機能する文脈の理解も必要である。しかしながら、既存の法的なベンチマークは、主に固定規範を前提としたルール適用を評価し、したがって、法的判断がシフトしたり、複数の規範が相互作用する状況の把握に失敗する。本研究では,韓国の法体系に基づく文脈認識型法的推論ベンチマークであるCALRK-Benchを提案する。 CALRK-Benchは、モデルが法的規範の時間的正当性を識別できるかどうかを評価し、所定のケースで十分な法的情報が利用できるかどうかを判断し、法的判断のシフトの背後にある理由を理解する。データセットは、法律上の前例と法的相談記録から構築され、法の専門家によって検証されている。実験結果から,近年の大規模言語モデルにおいても,これらの3つのタスクにおける性能が一貫して低いことが示唆された。 CALRK-Benchは、単純な法的知識の記憶ではなく、文脈対応の法的推論を評価するための新しいストレステストを提供する。私たちのコードはhttps://github.com/jhCOR/CALRKBench.comから入手可能です。

関連論文リスト

LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
Capturing Legal Reasoning Paths from Facts to Law in Court Judgments using Knowledge Graphs [0.0]
裁判所の判断は、法的規則がどのように解釈され、事実に適用されたかを明らかにする。法的な推論を捉えるための既存の自動化アプローチは、事実が法的な規範にどのように関係しているかを正確には追跡しない。本稿では,648件の日本行政裁判所判決から法的知識グラフを構築した。
論文参考訳（メタデータ） (2025-08-24T12:51:40Z)
LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文参考訳（メタデータ） (2025-05-19T08:48:12Z)
LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文参考訳（メタデータ） (2025-02-22T21:07:12Z)
LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models [15.98468948605927]
LegalBenchは6種類の法的推論をカバーする162のタスクからなるベンチマークである。本稿では、LegalBenchについて述べるとともに、20のオープンソースおよび商用LCMの実証的な評価を行い、LegalBenchがもたらす研究のタイプについて説明する。
論文参考訳（メタデータ） (2023-08-20T22:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。