論文の概要: Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2512.19905v1
- Date: Mon, 22 Dec 2025 22:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.676258
- Title: Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling
- Title(参考訳): LLM-as-a-Judge:推論時間スケーリングのための解析的トラクタブルモデル
- Authors: Indranil Halder, Cengiz Pehlevan,
- Abstract要約: 推論時間スケーリングを解析的に抽出可能なモデルを導入する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
- 参考スコア(独自算出の注目度): 34.69440744042684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large language models have shown advantages in reallocating a notable share of computational resource from training time to inference time. However, the principles behind inference time scaling are not well understood. In this paper, we introduce an analytically tractable model of inference-time scaling: Bayesian linear regression with a reward-weighted sampler, where the reward is determined from a linear model, modeling LLM-as-a-judge scenario. We study this problem in the high-dimensional regime, where the deterministic equivalents dictate a closed-form expression for the posterior predictive mean and variance. We analyze the generalization error when training data are sampled from a teacher model. We draw $k$ inference-time samples and select via softmax at a temperature applied to a quadratic reward. When the reward is not too different from the teacher, the generalization error decreases monotonically with increasing inference time samples $k$. However, the specific reward that optimizes inference-time selection generally differs from the teacher. In contrast, substantial reward misspecification induces a finite optimal $k$ beyond which more sampling can increase the generalization error. For fixed $k$, there exists an optimal sampling temperature. We experimentally verify these facts in large language model inference with an additional large language model as a judge. In the "best-of-$k$" limit with the teacher as reward, we theoretically show that the generalization error decays as $Θ(1/k^2)$ and determine the leading coefficient via extreme value theory. These formulas delineate domains where scaling inference-time computation is provably preferable to collecting more data. Finally, we demonstrate that when task difficulty increases, the previously mentioned advantage of inference-time compute degrades.
- Abstract(参考訳): 大規模言語モデルの最近の発展は、トレーニング時間から推論時間まで、計算資源の顕著なシェアを割り当てることの利点を示している。
しかし、推論時間のスケーリングの背後にある原則はよく理解されていない。
本稿では,LLM-as-a-judgeシナリオをモデル化し,線形モデルから報酬が決定される報酬重み付きサンプルを用いたベイズ線形回帰モデルを提案する。
決定論的同値が後続予測平均と分散の閉形式表現を定式化する高次元状態において,この問題を考察する。
教師モデルからトレーニングデータをサンプリングする際の一般化誤差を解析する。
我々は、$k$の推論時間サンプルを描画し、2次報酬に適用される温度でソフトマックスで選択する。
報酬が教師とそれほど変わらない場合、一般化誤差は推論時間サンプルの$k$の増加とともに単調に減少する。
しかし、推論時間選択を最適化する特定の報酬は、一般的に教師と異なる。
対照的に、実質的な報酬の誤特定は有限の最適$k$を誘導し、より多くのサンプリングが一般化誤差を増大させる。
固定$k$の場合、最適なサンプリング温度が存在する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
教師を報酬として持つ「最高のk$」極限では、一般化誤差が$1/k^2)$として崩壊し、極値理論を通じて先頭係数を決定することが理論的に示される。
これらの公式は、より多くのデータを集めるよりも、スケーリングの推論時間計算が確実に好ましい領域を記述している。
最後に、タスクの難易度が大きくなると、前述の推論時間計算の利点が劣化することを示した。
関連論文リスト
- Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective [16.610925506252716]
古典的推定理論において、最小マックス最適推定誤差率$Theta(d/n)$は、特徴空間$d$の次元と線形にスケールするサンプルの個数$n$を要求する。
特徴空間の高次元性と人間の注釈付きデータを収集するコストは、従来の推定手法の効率性に挑戦する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、ミニマックス最適率は$Theta(k/n log(d/k))に還元できることを示す。
論文 参考訳(メタデータ) (2025-01-30T11:41:13Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。