論文の概要: A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays
- arxiv url: http://arxiv.org/abs/2605.25652v1
- Date: Mon, 25 May 2026 09:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.634206
- Title: A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays
- Title(参考訳): タイのバー・エグザムフリーフォームエッセイにおけるLLM審査員とバー・カウンシル審査員の2相安定性に関する研究
- Authors: Pawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong,
- Abstract要約: ルーブリックが両方の軸を処方する15個の細胞のうち、29個のラッカーは全てタイトなバンドに収束する。
残りの5つの細胞は、決定的な法定引用を省略する正しい最終回答の格付けを規定していないが、ヒトのパネルは2つのコヒーレントな読解を分割する。
LLM-panel $$は、両方の読みのバランスの取れた再生ではなく、多数読みの体系的な収束を反映している。
- 参考スコア(独自算出の注目度): 7.580441504706575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Free-form legal essay evaluation in NLP treats expert inter-rater stability as a single ceiling number, and treats LLM-judge agreement with that ceiling as evidence of judge stability. We test both assumptions on the Thai bar examination through an identical-inputs protocol: three Bar Council-trained examiners (A, B, C) and a 26-LLM judge panel score the same 15 cross-graded answers from the same four inputs (question, official Bar Council grading regulation, gold answer, candidate answer). The headline finding is asymmetric. On 10 of 15 cells where the rubric prescribes both axes, all 29 raters converge in a tight band: panel agreement is universal. On the remaining 5 cells where the rubric does not prescribe how to grade a correct final answer that omits a decisive statutory citation, the human panel splits between two coherent readings (B/C majority at the upper rubric band, score $6$--$8$; A minority at the lower band, score $1$--$2$). The LLM judge population does not split symmetrically: 22 of 26 LLMs score in or near B/C's contested band, 3 sit in the regulation-silent middle gap, and only 1 (GPT-5.4 Nano) approaches A's band without consistently scoring within it. \emph{Zero LLMs in our 26-judge panel reproduce the minority human reading on the contested cells.} The B/C-direction cluster spans every model size, vendor, and price tier we tested. An instrumented three-LLM anchor sub-panel (Claude 4.6 Opus, Gemini 3.1 Pro, GPT-5.4 Pro) carries determinism probes, input ablations, and bootstrap CIs, and reaches anchor panel $α= 0.77$ on the 15 cells against human-panel $α= 0.36$. The high LLM-panel $α$ reflects systematic convergence on the majority reading rather than balanced reproduction of both readings; a benchmark that selects its LLM judge by maximising agreement with a human reference panel will inherit this asymmetry by construction.
- Abstract(参考訳): NLPにおける自由形法的なエッセイ評価は、専門家間の安定性を単一の天井数として扱い、LLM-judge合意を裁判官安定性の証拠として扱う。
3つのバーカウンシル訓練試験員(A,B,C)と26-LLMの審査員パネルは、同じ4つの入力から15のクロスグレード回答(クエスト、公式のバーカウンシル格付け規則、ゴールド回答、候補回答)をスコア付けする。
見出しの発見は非対称である。
ルーブリックが両方の軸を処方する15個の細胞のうち、29個のラッカーは全てタイトなバンドに収束する。
決定的な法定引用を省略する正しい最終回答の格付けを規定していない残りの5つの細胞では、ヒトのパネルは2つのコヒーレントな読解(上層ルーリックバンドのB/C多数、スコア6----$8; 下層ルーリックバンドのマイノリティ、スコア1--$2$)に分けられる。
LLMの判定集団は対称に分裂せず、26のLDMのうち22のスコアがB/Cの競合バンド内か近辺にあり、3のスコアは規制・サイレントな中間ギャップにあり、1(GPT-5.4 Nano)のみがAのバンドに一貫したスコアを付けずに接近する。
26項目のパネルにある \emph{Zero LLMs は、競合する細胞上での少数人の読みを再現します。
B/C指向クラスタは、テストしたすべてのモデルサイズ、ベンダー、価格ティアにまたがっています。
計装された3つのLLMアンカーサブパネル(Claude 4.6 Opus, Gemini 3.1 Pro, GPT-5.4 Pro)は、決定論的プローブ、入力アブレーション、ブートストラップCIを持ち、15個のセルで人間のパネルに対して0.77ドルに達する。
高い LLM-panel $α$ は、両方の読みのバランスの取れた再生ではなく、多数読みの体系的な収束を反映しており、人間の参照パネルとの合意を最大化することによって LLM の判断を選択するベンチマークは、この非対称性を構築によって継承する。
関連論文リスト
- Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation [53.88666485159289]
OpenDeepThinkは、集団ベースのテスト時間計算フレームワークで、ペアワイズBradley-Terryの比較によって選択する。
OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンドで+405ポイント引き上げる。
CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
論文 参考訳(メタデータ) (2026-05-14T17:57:40Z) - Correcting Selection Bias in Sparse User Feedback for Large Language Model Quality Estimation: A Multi-Agent Hierarchical Bayesian Approach [0.9558392439655014]
本研究では, 個別の相互作用に対して, 地絡ラベルを必要としない3次元階層型ベイズパイプラインを提案する。
フィードバックチャネル(典型的には正のフィードバック率と負のフィードバック比)の軽度先行は、バイアス比が一掃されるにつれて階層的インフォームドは4-13 pp of $Qstar$ に留まる。
チャネル側の先行がなければ、すべての弱いプライオリティは、22-33 pp.で$Qstar$を逃す。
論文 参考訳(メタデータ) (2026-05-12T14:22:06Z) - Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML [1.373282478189168]
アリーナの52のLLMから116の言語で89Kの比較を行った。
決定的な投票の2/3近くはキャンセルされ、世界のブラッドリー・テリーランキングで上位50モデルでさえ統計的に区別できない。
例えば$(, )$-portfoliosというフレームワークを紹介します。これは予測エラーを最大$$, "covering" で達成するモデルの小さなセットです。
論文 参考訳(メタデータ) (2026-05-07T17:57:58Z) - Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese [8.678622777553267]
Prosaはブラジル初のマルチターンポルトガル語チャットベンチマークである。
3人の審査員は16位のうち1つに同意する一方、総投票では16位のうち7つに同意する。
我々は、将来のモデルを同一条件下で評価できるように、ベンチマークとフィルタリングコードをリリースする。
論文 参考訳(メタデータ) (2026-05-02T22:44:44Z) - Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations [4.032680910442999]
LLM-as-judge フレームワークは NLG の自動評価にますます利用されているが、そのインスタンスごとの信頼性はよく分かっていない。
SummEvalに応用した2段階の診断ツールキットについて述べる。 $textbf(1)$ 推移性解析により,低集合的違反率で隠蔽されるインプット毎の不整合の広範性を明らかにする。
4人の審査員と4つの基準で、どちらの診断も一致している。
論文 参考訳(メタデータ) (2026-04-16T17:58:21Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment [26.786161923794115]
大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T22:55:16Z) - Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges [53.12387628636912]
RAG評価において重要な要素は、引用された文書の情報が回答をサポートするかどうかである。
TREC 2024 RAG Trackの36項目について,45件の参加者を大規模に比較検討した。
以上の結果から,手動によるオフスクラッチ評価の56%では,ヒトとGPT-4oの予測が完全に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-04-21T16:20:43Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。