論文の概要: AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals
- arxiv url: http://arxiv.org/abs/2605.04083v1
- Date: Wed, 15 Apr 2026 17:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.583011
- Title: AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals
- Title(参考訳): AsymmetricZero:人間専門家の選好を意味的方程式として操作するためのフレームワーク
- Authors: Tadhg Looram, Lucas Nuzzi, Kyle Waters, Steven Dillmann,
- Abstract要約: AsymmetricZeroは、人間の専門的嗜好を意味論的評価として運用するためのフレームワークである。
AsymmetricZeroは、各タスクを安定した評価契約として表現し、グレーディング基準を明確にする。
本稿では,ハーバーを用いた5モデルフロンティア陪審を5モデルコンパクト陪審と比較する。
- 参考スコア(独自算出の注目度): 0.0044302156879028705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much of the focus in RL today is on evaluation design: building meaningful evals that serve simultaneously as benchmarks and as well-defined reward signals for post-training. Yet, many real-world tasks are governed by subjective, procedural, and domain-specific requirements that are difficult to encode as exact-match targets or open-ended preference judgments frequently used in RL pipelines today. In this work, we present AsymmetryZero, a framework for operationalizing human expert preferences as semantic evals. AsymmetryZero represents each task as a stable evaluation contract that makes grading criteria explicit: what is being graded, how each criterion is judged, and how criterion-level decisions are aggregated into a task outcome. The same contract can be executed using Inspect for model-only evaluations, as well as the Harbor Framework for agentic evaluations, enabling comparable scores and shared audit artifacts across both settings. We argue that the central challenge in post-training today is the faithful encoding of expert requirements into the evaluation itself. To that end, we present a study using Harbor that holds task contracts fixed and compares a five-model frontier jury against a five-model compact jury across four frontier-class solvers (Claude Opus 4.6, GPT-5.4, Grok-4.20, Gemini-3.1-Pro). We find that criterion-level frontier-vs-compact agreement ranges from $75.9\%$ to $89.6\%$ (strict common-subset agreement: $77.8\%$ to $92.1\%$), while compact juries exhibit substantially higher internal dissent (3--2 split rate $28.7\%$--$32.4\%$) than frontier juries ($6.1\%$--$11.5\%$). Verifier traces further show that compact juries reduce per-criterion judging cost to roughly $4.2\%$--$5.6\%$ of frontier and latency to roughly $21.7\%$--$27.1\%$, even as aggregated task-level outcomes often remain comparatively stable.
- Abstract(参考訳): 現在のRLの焦点は評価設計であり、ベンチマークとトレーニング後の報奨信号とを同時に使用する有意義なevalの構築である。
しかし、多くの実世界のタスクは主観的、手続き的、ドメイン固有の要件によって管理されており、今日ではRLパイプラインで頻繁に使用される正確なマッチターゲットやオープンな優先判断として符号化するのが困難である。
本研究では,人間の専門的嗜好を意味論的評価として運用するためのフレームワークであるAsymmetricZeroを紹介する。
AsymmetricZeroは、各タスクを安定した評価契約として表現し、グレーティング基準を明確にする。
同じコントラクトはモデルのみの評価にInspectを使用して実行することができ、エージェント評価のためのHarbor Frameworkを使用して、両方の設定で同等のスコアと監査成果物を共有することができる。
今日のポストトレーニングにおける中心的な課題は、専門家の要求を評価そのものに忠実にエンコーディングすることである、と私たちは主張する。
この目的のために,ハーバーを用いた5モデルフロンティア陪審を4つのフロンティアクラスの解決者(Claude Opus 4.6, GPT-5.4, Grok-4.20, Gemini-3.1-Pro)の5モデルコンパクト陪審と比較した。
基準レベルのFrontier-vs-compact agreementは75.9\%から89.6\%(制限付きコモン・サブセット契約:77.8\%$から92.1\%$)まで様々であり、一方コンパクト・ジャリーはフロンティア・ジャリー(6.1\%--$11.5\%$)よりもかなり高い内部不一致(28.7\%)を示す。
検証結果から、コンパクトなジャリーは基準ごとの判定コストを約4.2 %$--$5.6 %$のフロンティアとレイテンシを約21.7 %$--$27.1 %$に削減している。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using LLM Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
エージェントストック予測システムは、個々の品質が集約メトリクスによって隠された相互依存的な決定のシーケンスを作成する。
このギャップに対処する行動評価フレームワークを提案する。
検証期間に限られる3つの短い微調整サイクルは、2017-2025年の試験期間中に1日間のMAPEを0.61%から0.54%に減らした。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations [4.032680910442999]
LLM-as-judge フレームワークは NLG の自動評価にますます利用されているが、そのインスタンスごとの信頼性はよく分かっていない。
SummEvalに応用した2段階の診断ツールキットについて述べる。 $textbf(1)$ 推移性解析により,低集合的違反率で隠蔽されるインプット毎の不整合の広範性を明らかにする。
4人の審査員と4つの基準で、どちらの診断も一致している。
論文 参考訳(メタデータ) (2026-04-16T17:58:21Z) - Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge [18.04153868078285]
モデルレベルの合意は、脆弱なサンプルレベルの合意をマスクすることを示す。
また,ドメイン知識に基づく評価ごみを動的に生成することで,より有意義な評価が得られることを示す。
これらの結果から, 評価多元論は, 一般的な基準に頼らず, 専門家の知識によって動的に富むべきであることが示唆された。
論文 参考訳(メタデータ) (2026-03-11T17:50:38Z) - Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment [26.786161923794115]
大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T22:55:16Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement [49.15348173246146]
人間の合意を厳格に保証したLCMに基づく評価を提供するための原則的アプローチを提案する。
まず、信頼度評価手法は、ペア評価にモデル選好を不クリティカルに頼ってはならないことを提案する。
そして、この選択的な評価枠組みの下で、人的合意が確実に保証されることを示す。
論文 参考訳(メタデータ) (2024-07-25T20:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。