論文の概要: Self-Verification is All You Need To Pass The Japanese Bar Examination
- arxiv url: http://arxiv.org/abs/2601.03144v1
- Date: Tue, 06 Jan 2026 16:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.016296
- Title: Self-Verification is All You Need To Pass The Japanese Bar Examination
- Title(参考訳): 日本のバー試験に合格しなければならないのは自己検証だけだ
- Authors: Andrew Shin,
- Abstract要約: 本稿では,本試験の真正な形式と評価尺度を忠実に再現するデータセットに基づいて学習した自己検証モデルを提案する。
本研究は, 形式に忠実な監視と整合性検証の重要性を強調し, 慎重に設計された単一モデルアプローチが, 高度な専門的推論タスクにおいて, より複雑なシステムより優れていることを示唆する。
- 参考スコア(独自算出の注目度): 2.4028383570062606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advances in large language models (LLMs), achieving reliable performance on highly professional and structured examinations remains a significant challenge. The Japanese bar examination is a particularly demanding benchmark, requiring not only advanced legal reasoning but also strict adherence to complex answer formats that involve joint evaluation of multiple propositions. While recent studies have reported improvements by decomposing such questions into simpler true--false judgments, these approaches have not been systematically evaluated under the original exam format and scoring scheme, leaving open the question of whether they truly capture exam-level competence. In this paper, we present a self-verification model trained on a newly constructed dataset that faithfully replicates the authentic format and evaluation scale of the exam. Our model is able to exceed the official passing score when evaluated on the actual exam scale, marking the first demonstration, to our knowledge, of an LLM passing the Japanese bar examination without altering its original question structure or scoring rules. We further conduct extensive comparisons with alternative strategies, including multi-agent inference and decomposition-based supervision, and find that these methods fail to achieve comparable performance. Our results highlight the importance of format-faithful supervision and consistency verification, and suggest that carefully designed single-model approaches can outperform more complex systems in high-stakes professional reasoning tasks. Our dataset and codes are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、高度に専門的かつ構造化された試験において信頼性の高い性能を達成することは大きな課題である。
日本の司法試験は特に要求の高いベンチマークであり、高度な法的理由づけだけでなく、複数の命題を共同で評価する複雑な回答形式への厳格な遵守も要求される。
近年の研究では、これらの質問をより単純な真偽判定に分解することで改善が報告されているが、これらのアプローチは、本来の試験形式や採点方式で体系的に評価されておらず、真の試験レベルの能力を獲得できるかどうかという疑問が残されている。
本稿では,新たに構築されたデータセットに基づいて学習した自己検証モデルについて述べる。
本モデルでは,実際の試験尺度で評価した際の公式パススコアを上回り,本試験に合格したLLMが,本来の質問構造やスコアリングルールを変更することなく,私たちの知る限りで,最初の実演を行うことができる。
さらに、マルチエージェント推論や分解に基づく監視など、代替手法との広範な比較を行い、これらの手法が同等の性能を達成できないことを発見した。
本研究は, 形式に忠実な監視と整合性検証の重要性を強調し, 慎重に設計された単一モデルアプローチが, 高度な専門的推論タスクにおいて, より複雑なシステムより優れていることを示唆する。
データセットとコードは公開されています。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。