論文の概要: LegalRikai: Open Benchmark - A Benchmark for Complex Japanese Corporate Legal Tasks
- arxiv url: http://arxiv.org/abs/2512.11297v2
- Date: Mon, 15 Dec 2025 11:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.257688
- Title: LegalRikai: Open Benchmark - A Benchmark for Complex Japanese Corporate Legal Tasks
- Title(参考訳): LegalRikai: オープンベンチマーク - 日本の複雑な企業法課題のベンチマーク
- Authors: Shogo Fujita, Yuji Naraki, Yiqing Zhu, Shinsuke Mori,
- Abstract要約: 本稿では,日本の企業法慣行を模倣する4つの複雑なタスクからなる新しいベンチマークであるLegalRikai: Open Benchmarkを紹介する。
本ベンチマークでは,100個のサンプルを抽出し,複数の実測値と比較した。
- 参考スコア(独自算出の注目度): 2.399077824457897
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces LegalRikai: Open Benchmark, a new benchmark comprising four complex tasks that emulate Japanese corporate legal practices. The benchmark was created by legal professionals under the supervision of an attorney. This benchmark has 100 samples that require long-form, structured outputs, and we evaluated them against multiple practical criteria. We conducted both human and automated evaluations using leading LLMs, including GPT-5, Gemini 2.5 Pro, and Claude Opus 4.1. Our human evaluation revealed that abstract instructions prompted unnecessary modifications, highlighting model weaknesses in document-level editing that were missed by conventional short-text tasks. Furthermore, our analysis reveals that automated evaluation aligns well with human judgment on criteria with clear linguistic grounding, and assessing structural consistency remains a challenge. The result demonstrates the utility of automated evaluation as a screening tool when expert availability is limited. We propose a dataset evaluation framework to promote more practice-oriented research in the legal domain.
- Abstract(参考訳): 本稿では,日本の企業法慣行を模倣する4つの複雑なタスクからなる新しいベンチマークであるLegalRikai: Open Benchmarkを紹介する。
ベンチマークは弁護士の監督の下、法律専門家によって作成された。
本ベンチマークでは,100個のサンプルを抽出し,複数の実測値と比較した。
GPT-5, Gemini 2.5 Pro, Claude Opus 4.1 など,主要なLCMを用いて人体および自動評価を行った。
我々の人間による評価では、抽象的な指示が不要な修正を引き起こし、従来の短文タスクでは欠落していた文書レベルの編集におけるモデルの弱点を強調した。
さらに, 自動評価は言語的根拠の明確な基準に基づく人間の判断とよく一致し, 構造的整合性の評価は依然として課題であることがわかった。
その結果、専門家の可用性が制限された場合、スクリーニングツールとしての自動評価の有用性が示された。
法律分野におけるより実践的な研究を促進するためのデータセット評価フレームワークを提案する。
関連論文リスト
- Assessing the Reliability of Large Language Models in the Bengali Legal Context: A Comparative Evaluation Using LLM-as-Judge and Legal Experts [0.0]
OpenAI GPT-4.1 Mini、Gemini 2.0 Flash、Meta Llama 370B、DeepSeek R1などの生成AIモデルは、法的援助を民主化する可能性がある。
本研究では,Facebookグループ「Know Your Rights」から250の真正な法的質問を収集した。
我々は,AIが生成する各応答を,事実的正確性,法的適切性,完全性,明確性という4つの重要な側面で評価した。
論文 参考訳(メタデータ) (2025-11-07T02:44:00Z) - LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal [34.008574054602356]
本報告では,公益調達法に関する知識試験と判決書を含む試験の構造について述べる。
いくつかのLCMはクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果,本モデルは知識テストで満足度を達成できたが,実用書面の通過しきい値には達しなかった。
論文 参考訳(メタデータ) (2025-11-06T09:11:20Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Automatic Legal Writing Evaluation of LLMs [10.74636407144071]
oab-benchは、最近の試験版から7つの分野にわたる105の質問からなるベンチマークである。
Claude-3.5 Sonnetは10点中平均スコア7.93点で21点の試験に合格した。
実験の結果,OpenAIのo1のようなフロンティアモデルでは,承認試験の評価において,人間のスコアと強い相関が得られた。
論文 参考訳(メタデータ) (2025-04-29T22:16:39Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models [0.0]
大規模言語モデル(LLM)の普及は、その局所的価値や倫理的基準との整合性をしっかりと評価する必要がある。
textscLocalValueBenchは、LLMがオーストラリアの値に準拠していることを評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-07-27T05:55:42Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。