論文の概要: Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2512.19905v1
- Date: Mon, 22 Dec 2025 22:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.676258
- Title: Demystifying LLM-as-a-Judge: Analytically Tractable Model for Inference-Time Scaling
- Title(参考訳): LLM-as-a-Judge:推論時間スケーリングのための解析的トラクタブルモデル
- Authors: Indranil Halder, Cengiz Pehlevan,
- Abstract要約: 推論時間スケーリングを解析的に抽出可能なモデルを導入する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
- 参考スコア(独自算出の注目度): 34.69440744042684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large language models have shown advantages in reallocating a notable share of computational resource from training time to inference time. However, the principles behind inference time scaling are not well understood. In this paper, we introduce an analytically tractable model of inference-time scaling: Bayesian linear regression with a reward-weighted sampler, where the reward is determined from a linear model, modeling LLM-as-a-judge scenario. We study this problem in the high-dimensional regime, where the deterministic equivalents dictate a closed-form expression for the posterior predictive mean and variance. We analyze the generalization error when training data are sampled from a teacher model. We draw $k$ inference-time samples and select via softmax at a temperature applied to a quadratic reward. When the reward is not too different from the teacher, the generalization error decreases monotonically with increasing inference time samples $k$. However, the specific reward that optimizes inference-time selection generally differs from the teacher. In contrast, substantial reward misspecification induces a finite optimal $k$ beyond which more sampling can increase the generalization error. For fixed $k$, there exists an optimal sampling temperature. We experimentally verify these facts in large language model inference with an additional large language model as a judge. In the "best-of-$k$" limit with the teacher as reward, we theoretically show that the generalization error decays as $Θ(1/k^2)$ and determine the leading coefficient via extreme value theory. These formulas delineate domains where scaling inference-time computation is provably preferable to collecting more data. Finally, we demonstrate that when task difficulty increases, the previously mentioned advantage of inference-time compute degrades.
- Abstract(参考訳): 大規模言語モデルの最近の発展は、トレーニング時間から推論時間まで、計算資源の顕著なシェアを割り当てることの利点を示している。
しかし、推論時間のスケーリングの背後にある原則はよく理解されていない。
本稿では,LLM-as-a-judgeシナリオをモデル化し,線形モデルから報酬が決定される報酬重み付きサンプルを用いたベイズ線形回帰モデルを提案する。
決定論的同値が後続予測平均と分散の閉形式表現を定式化する高次元状態において,この問題を考察する。
教師モデルからトレーニングデータをサンプリングする際の一般化誤差を解析する。
我々は、$k$の推論時間サンプルを描画し、2次報酬に適用される温度でソフトマックスで選択する。
報酬が教師とそれほど変わらない場合、一般化誤差は推論時間サンプルの$k$の増加とともに単調に減少する。
しかし、推論時間選択を最適化する特定の報酬は、一般的に教師と異なる。
対照的に、実質的な報酬の誤特定は有限の最適$k$を誘導し、より多くのサンプリングが一般化誤差を増大させる。
固定$k$の場合、最適なサンプリング温度が存在する。
我々は,これらの事実を大言語モデル推論で実験的に検証し,さらに大きな言語モデルを判断する。
教師を報酬として持つ「最高のk$」極限では、一般化誤差が$1/k^2)$として崩壊し、極値理論を通じて先頭係数を決定することが理論的に示される。
これらの公式は、より多くのデータを集めるよりも、スケーリングの推論時間計算が確実に好ましい領域を記述している。
最後に、タスクの難易度が大きくなると、前述の推論時間計算の利点が劣化することを示した。
関連論文リスト
- On the Power of (Approximate) Reward Models for Inference-Time Scaling [3.540245474029962]
推論時間スケーリングは、大規模言語モデルの推論能力を改善するための強力なパラダイムとして登場した。
すべてのデプロイされたシステムは、近似的な報酬モデルに依存しており、根本的な疑問を提起している。
近似報酬モデルのベルマン誤差を,SMCに基づく推定時間スケーリングの有効性を規定する鍵となる量として同定する。
論文 参考訳(メタデータ) (2026-02-01T18:28:42Z) - Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model [2.7074235008521246]
ニューラルネットワークのスケーリング法則を最終層微細チューニングの解法モデルで解析する。
学習がエラー分布の「ハードテール」を小さくすることを示す。
論文 参考訳(メタデータ) (2026-01-07T10:00:17Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective [16.610925506252716]
古典的推定理論において、最小マックス最適推定誤差率$Theta(d/n)$は、特徴空間$d$の次元と線形にスケールするサンプルの個数$n$を要求する。
特徴空間の高次元性と人間の注釈付きデータを収集するコストは、従来の推定手法の効率性に挑戦する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、ミニマックス最適率は$Theta(k/n log(d/k))に還元できることを示す。
論文 参考訳(メタデータ) (2025-01-30T11:41:13Z) - Lifted Coefficient of Determination: Fast model-free prediction intervals and likelihood-free model comparison [0.0]
予測値と観測値の相関が大きくなるにつれて、モデルフリーな予測間隔がより強くなる。
これらの区間は、任意の損失関数のモデル比較基準である決定の$textitLifted係数を動機付けている。
予測区間をより一般的な誤差分布に拡張し、回帰のための高速モデルフリーな外乱検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-11T16:27:31Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。