論文の概要: OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand
- arxiv url: http://arxiv.org/abs/2601.13183v1
- Date: Mon, 19 Jan 2026 16:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.96155
- Title: OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand
- Title(参考訳): OpenExempt: 法的推論のための診断ベンチマークと、オンデマンドでカスタムベンチマークを作成するフレームワーク
- Authors: Sergio Servantez, Sarah B. Lawsky, Rajiv Jain, Daniel W. Linna, Kristian Hammond,
- Abstract要約: 本稿では,法的推論の診断のためのフレームワークとベンチマークであるOpenExemptを紹介する。
OpenExempt Frameworkは、米国の破産法規の専門家によるシンボル表現を使用している。
このシステムを用いて,9,765個のサンプルを用いた法的推論のための診断ベンチマークであるOpenExempt Benchmarkを構築した。
- 参考スコア(独自算出の注目度): 7.223768474709172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning benchmarks have played a crucial role in the progress of language models. Yet rigorous evaluation remains a significant challenge as static question-answer pairs provide only a snapshot of performance, compressing complex behavior into a single accuracy metric. This limitation is especially true in complex, rule-bound domains such as law, where existing benchmarks are costly to build and ill suited for isolating specific failure modes. To address this, we introduce OpenExempt, a framework and benchmark for diagnostic evaluation of legal reasoning. The OpenExempt Framework uses expert-crafted symbolic representations of U.S. Bankruptcy Code statutes to dynamically generate a large space of natural language reasoning tasks and their machine-computable solutions on demand. This gives users fine-grained control over task complexity and scope, allowing individual reasoning skills to be probed in isolation. Using this system, we construct the OpenExempt Benchmark, a diagnostic benchmark for legal reasoning with 9,765 samples across nine evaluation suites designed to carefully probe model capabilities. Experiments on 13 diverse language models reveal sharp performance cliffs that emerge only under longer reasoning paths and in the presence of obfuscating statements. We release the framework and benchmark publicly to support research aimed at understanding and improving the next generation of reasoning systems.
- Abstract(参考訳): 推論ベンチマークは言語モデルの進歩において重要な役割を担っている。
しかし、静的な問合せ対はパフォーマンスのスナップショットのみを提供し、複雑な振る舞いを1つの精度で圧縮するので、厳密な評価は依然として重要な課題である。
既存のベンチマークはビルドに費用がかかり、特定の障害モードを分離するのに不適当である。
そこで我々は,法的推論の診断のためのフレームワークとベンチマークであるOpenExemptを紹介した。
OpenExempt Frameworkは、米国破産法規の専門家による象徴的な表現を使用して、自然言語推論タスクの広いスペースとそのマシン計算可能なソリューションをオンデマンドで動的に生成する。
これにより、ユーザーはタスクの複雑さとスコープを細かく制御でき、個別の推論スキルを個別に調査することができる。
本システムを用いて,9つの評価スイートから9,765個のサンプルを抽出し,モデル機能を慎重に探究する手法であるOpenExempt Benchmarkを構築した。
13の多様な言語モデルの実験では、長い推論パスと難解なステートメントの存在下でのみ現れる、シャープなパフォーマンスの崖が明らかになっている。
我々は次世代の推論システムの理解と改善を目的とした研究を支援するため,フレームワークとベンチマークを公開している。
関連論文リスト
- RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning [6.282781900938977]
複雑な多機能理解と細粒度実行推論のための新しいベンチマークであるSTEPWISE-CODEX-Bench(SX-Bench)を提案する。
SX-Benchは非常に差別的であり、最先端のOpenAI-O3でさえハード推論タスクでは78.7%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-08-07T09:28:43Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - VerifyThisBench: Generating Code, Specifications, and Proofs All at Once [9.383313869205628]
本稿では,自然言語記述からエンドツーエンドのプログラム検証を評価する新しいベンチマークを提案する。
評価の結果,o3-miniのような最先端(SOTA)モデルでさえ,パスレートが4%未満であることが確認された。
論文 参考訳(メタデータ) (2025-05-25T19:00:52Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。