論文の概要: Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models
- arxiv url: http://arxiv.org/abs/2601.22336v1
- Date: Thu, 29 Jan 2026 21:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.078174
- Title: Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models
- Title(参考訳): LLM-as-a-JudgeにおけるIsingモデルによる依存型ラベル集約
- Authors: Krishnakumar Balasubramanian, Aleksandr Podkopaev, Shiva Prasad Kasiviswanathan,
- Abstract要約: 大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
- 参考スコア(独自算出の注目度): 55.94503936470247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale AI evaluation increasingly relies on aggregating binary judgments from $K$ annotators, including LLMs used as judges. Most classical methods, e.g., Dawid-Skene or (weighted) majority voting, assume annotators are conditionally independent given the true label $Y\in\{0,1\}$, an assumption often violated by LLM judges due to shared data, architectures, prompts, and failure modes. Ignoring such dependencies can yield miscalibrated posteriors and even confidently incorrect predictions. We study label aggregation through a hierarchy of dependence-aware models based on Ising graphical models and latent factors. For class-dependent Ising models, the Bayes log-odds is generally quadratic in votes; for class-independent couplings, it reduces to a linear weighted vote with correlation-adjusted parameters. We present finite-$K$ examples showing that methods based on conditional independence can flip the Bayes label despite matching per-annotator marginals. We prove separation results demonstrating that these methods remain strictly suboptimal as the number of judges grows, incurring nonvanishing excess risk under latent factors. Finally, we evaluate the proposed method on three real-world datasets, demonstrating improved performance over the classical baselines.
- Abstract(参考訳): 大規模なAI評価は、審査員が使用するLLMを含む、$K$アノテータからのバイナリ判断の集約にますます依存している。
ほとんどの古典的メソッド、例えば、Dawid-Skene、あるいは(重み付けされた)多数決では、アノテータは、真のラベル$Y\in\{0,1\}$から条件的に独立していると仮定する。
このような依存関係を無視すると、誤校正された後部と、確実な誤った予測が得られる。
我々はIsingグラフィカルモデルと潜時因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
クラス依存のIsingモデルでは、ベイズ対数(Bayes log-odds)は概して2次投票であり、クラス依存の結合では相関調整パラメータによる線形重み付き投票に還元される。
条件付き独立性に基づく手法が、アノテータごとの限界値に一致するにもかかわらずベイズラベルを反転させることができることを示す有限$Kの例を示す。
我々は,これらの手法が審査員数の増加とともに厳密に最適であり,潜伏要因による過剰なリスクを生じさせることを示す。
最後に,提案手法を実世界の3つのデータセット上で評価し,従来のベースラインよりも優れた性能を示す。
関連論文リスト
- Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge [5.855996386998925]
大きな言語モデル(LLM)をペアの選好の判断に使用すると、単一サンプルレベルではノイズが残る。
本研究では,各項目ごとにn個の独立した思考型サンプルを生成する評価器の推論時間計算(ITC)について検討する。
論文 参考訳(メタデータ) (2025-12-02T18:46:47Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Streaming algorithms for evaluating noisy judges on unlabeled data --
binary classification [0.0]
我々は、代数的故障モードを用いて、ほぼ誤りのないトリオスを探索し、評価アンサンブルを過度に相関するものとして否定する。
生き残ったアンサンブルが生み出す結果は、時には1%にも達することがある。
独立性が仮定されるときに生じる推定値のテイラー展開は、実際、分類器はわずかに相関しているので、独立評価器が代数的盲点を持つかを明らかにするのに役立つ」。
論文 参考訳(メタデータ) (2023-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。