論文の概要: Judge Circuits
- arxiv url: http://arxiv.org/abs/2605.16023v1
- Date: Fri, 15 May 2026 14:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.327003
- Title: Judge Circuits
- Title(参考訳): ジャッジサーキット
- Authors: Nils Feldhus, Tanja Baeumel, Elena Golimblevskaia, Qianli Wang, Van Bach Nguyen, Aaron Louis Eidt, Christopher Ebert, Wojciech Samek, Jing Yang, Vera Schmitt, Sebastian Möller, Simon Ostermann,
- Abstract要約: Gemma-3,Qwen2.5,Llama-3の内部機構について検討した。
構造化された理解とオープンな嗜好タスクによる判断は、疎結合で一般化された潜在評価器のサブグラフを共有する。
我々は,オープンウェイトモデルにおける形式に起因した不整合の力学的説明を提供する。
- 参考スコア(独自算出の注目度): 24.717818484378583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-judge has become the dominant paradigm for grading model outputs at scale, yet the same model assigns systematically different scores when its output format changes (e.g., a 1-5 rating vs. a True/False label). Existing diagnoses of these format-induced inconsistencies stop at the input-output level. Using Position-aware Edge Attribution Patching (PEAP), we causally investigate the internal mechanism in Gemma-3, Qwen2.5, and Llama-3. We find that judgments across structured understanding and open-ended preference tasks share a sparse, generalized Latent Evaluator sub-graph in the mid-to-late multi-layer perceptrons (MLPs); zero-ablating it collapses judgment while preserving world knowledge in architecturally modular models. By structurally decoupling abstract judging from output formatting, we provide a mechanistic account of format-induced inconsistency on the open-weight models we study: a continuous judgment signal computed in the shared trunk is mapped through fragile, format-specific terminal branches, enabling format-independent preference to be isolated downstream of the requested output format. Our findings imply that benchmark-level reliability comparisons across formats are partially measuring formatter geometry rather than evaluation quality.
- Abstract(参考訳): LLM-as-a-judgeはモデル出力を大規模にグレードする主要なパラダイムとなっているが、同じモデルは出力形式が変化すると体系的に異なるスコアを割り当てている(例えば、True/Falseラベルに対する1-5レーティング)。
既存のフォーマットによる不整合の診断は、入出力レベルで停止する。
位置対応エッジ属性パッチング(PEAP)を用いて,Gemma-3,Qwen2.5,Llama-3の内部機構を慎重に検討した。
構造化された理解とオープンな選好課題による判断は,多層パーセプトロン(MLP)における疎密な一般化されたラテント評価サブグラフを共有する。
出力形式から抽象的な判断を構造的に分離することにより、オープンウェイトモデル上でのフォーマット依存性の不整合の機械的説明を提供する:共有トランクで計算された連続判定信号は、フレキシブルなフォーマット固有の端末分岐によってマッピングされ、要求された出力フォーマットの下流でフォーマットに依存しない好みを分離することができる。
その結果, ベンチマークレベルの信頼性比較は, 品質評価よりもフォーマッター幾何を部分的に測定していることが示唆された。
関連論文リスト
- Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings [5.994477544297929]
本稿では,鍵生成能力を抽出し,迅速な構造とレイアウトの両面で様々なレベルの複雑さを提供するために,クローズドセットベンチマーク(C-Bench)を導入する。
この制御された設定を補完するために,実世界のプロンプトとレイアウトを用いたモデル評価を行うオープンセットベンチマーク(O-Bench)を提案する。
我々は,6つの最先端レイアウト誘導拡散モデルの大規模評価を行い,319,086個の画像を生成し,評価した。
論文 参考訳(メタデータ) (2026-04-28T08:25:32Z) - The Last Fingerprint: How Markdown Training Shapes LLM Prose [0.0]
私たちは、エムダッシュが散文にマークダウンリークしていることを提案します。
トレーニングデータ構成,構造的内部化,エムダッシュの二重登録状態,訓練後の増幅を結合する5段階の系譜を提案する。
論文 参考訳(メタデータ) (2026-03-27T21:42:06Z) - FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文 参考訳(メタデータ) (2026-02-06T04:42:06Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。
本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文 参考訳(メタデータ) (2024-08-16T10:45:45Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。