論文の概要: LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal
- arxiv url: http://arxiv.org/abs/2511.04205v1
- Date: Thu, 06 Nov 2025 09:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.374094
- Title: LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal
- Title(参考訳): LLM-as-a-Judgeは悪い, ポーランド国家控訴委員会の審査員資格試験に基づくAI
- Authors: Michał Karp, Anna Kubaszewska, Magdalena Król, Robert Król, Aleksander Smywiński-Pohl, Mateusz Szymański, Witold Wydmański,
- Abstract要約: 本報告では,公益調達法に関する知識試験と判決書を含む試験の構造について述べる。
いくつかのLCMはクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果,本モデルは知識テストで満足度を達成できたが,実用書面の通過しきい値には達しなかった。
- 参考スコア(独自算出の注目度): 34.008574054602356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study provides an empirical assessment of whether current large language models (LLMs) can pass the official qualifying examination for membership in Poland's National Appeal Chamber (Krajowa Izba Odwo{\l}awcza). The authors examine two related ideas: using LLM as actual exam candidates and applying the 'LLM-as-a-judge' approach, in which model-generated answers are automatically evaluated by other models. The paper describes the structure of the exam, which includes a multiple-choice knowledge test on public procurement law and a written judgment, and presents the hybrid information recovery and extraction pipeline built to support the models. Several LLMs (including GPT-4.1, Claude 4 Sonnet and Bielik-11B-v2.6) were tested in closed-book and various Retrieval-Augmented Generation settings. The results show that although the models achieved satisfactory scores in the knowledge test, none met the passing threshold in the practical written part, and the evaluations of the 'LLM-as-a-judge' often diverged from the judgments of the official examining committee. The authors highlight key limitations: susceptibility to hallucinations, incorrect citation of legal provisions, weaknesses in logical argumentation, and the need for close collaboration between legal experts and technical teams. The findings indicate that, despite rapid technological progress, current LLMs cannot yet replace human judges or independent examiners in Polish public procurement adjudication.
- Abstract(参考訳): 本研究は,ポーランド国民控訴院(Krajowa Izba Odwo{\l}awcza)の会員資格試験に現行の大規模言語モデル(LLM)が合格できるかどうかを実証的に評価する。
著者らは、LLMを実際の試験候補として使用することと、モデル生成された回答を他のモデルで自動的に評価する'LLM-as-a-judge'アプローチの適用の2つの関連考えについて検討した。
本稿では,公共調達法に関する複数選択知識テストと書面判断を含む試験構造について述べるとともに,これらのモデルを支援するために構築されたハイブリッド情報回復・抽出パイプラインについて述べる。
いくつかのLCM(GPT-4.1、Claude 4 Sonnet、Bielik-11B-v2.6など)がクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果, モデルが知識テストで満足度を達成できたものの, 実用書面の通過しきい値には達せず, 「LLM-as-a-judge」の評価は, 公式審査委員会の判断から逸脱することが多かった。
著者らは、幻覚への感受性、法的規定の誤った引用、論理的議論の弱点、法の専門家と技術チームの緊密な協力の必要性など、重要な制限を強調している。
この結果は、急速な技術進歩にもかかわらず、現在のLLMは、ポーランドの公共調達の判断において、人間の裁判官や独立した検査官を置き換えることはできないことを示唆している。
関連論文リスト
- Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning [0.5308136763388956]
私たちは、インドの公的な司法試験を透明な代理として利用しています。
私たちのベンチマークは、国家試験と国家試験の客観的な画面をまとめたものです。
我々はまた、最高裁判所のAdvocate-on-Record試験による長文の回答について、弁護士に格付けされた、ペアの書面による研究も含んでいる。
論文 参考訳(メタデータ) (2025-10-19T10:04:29Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Automatic Legal Writing Evaluation of LLMs [10.74636407144071]
oab-benchは、最近の試験版から7つの分野にわたる105の質問からなるベンチマークである。
Claude-3.5 Sonnetは10点中平均スコア7.93点で21点の試験に合格した。
実験の結果,OpenAIのo1のようなフロンティアモデルでは,承認試験の評価において,人間のスコアと強い相関が得られた。
論文 参考訳(メタデータ) (2025-04-29T22:16:39Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review [8.606381080620789]
既存のAIテキスト検出アルゴリズムが人間の書いたピアレビューと最先端のLLMを区別する能力について検討する。
分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。
偽陽性分類の低レベルにおけるGPT-4o書評の同定において,既存の手法を超越した新たな検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T22:05:06Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。