論文の概要: Fisher Random Walk: Automatic Debiasing Contextual Preference Inference for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2509.05852v1
- Date: Sat, 06 Sep 2025 22:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.741142
- Title: Fisher Random Walk: Automatic Debiasing Contextual Preference Inference for Large Language Model Evaluation
- Title(参考訳): Fisher Random Walk:大規模言語モデル評価のための文脈優先推論の自動デバイアス
- Authors: Yichi Zhang, Alexander Belloni, Ethan X. Fang, Junwei Lu, Xiaoan Xu,
- Abstract要約: 偏差推定を自動化する半パラメトリック効率的な推定器を開発した。
釣りランダムウォーク(Fisher random walk)と呼ばれる新しい戦略から重みが導出されると効率が向上することを示す。
- 参考スコア(独自算出の注目度): 46.643610591694376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the need for rigorous and scalable evaluation of large language models, we study contextual preference inference for pairwise comparison functionals of context-dependent preference score functions across domains. Focusing on the contextual Bradley-Terry-Luce model, we develop a semiparametric efficient estimator that automates the debiased estimation through aggregating weighted residual balancing terms across the comparison graph. We show that the efficiency is achieved when the weights are derived from a novel strategy called Fisher random walk. We also propose a computationally feasible method to compute the weights by a potential representation of nuisance weight functions. We show our inference procedure is valid for general score function estimators accommodating the practitioners' need to implement flexible deep learning methods. We extend the procedure to multiple hypothesis testing using a Gaussian multiplier bootstrap that controls familywise error and to distributional shift via a cross-fitted importance-sampling adjustment for target-domain inference. Numerical studies, including language model evaluations under diverse contexts, corroborate the accuracy, efficiency, and practical utility of our method.
- Abstract(参考訳): 大規模言語モデルの厳密でスケーラブルな評価の必要性から,コンテキスト依存の選好スコア関数のペアワイズ比較関数に対する文脈的選好推定について検討した。
文脈的Bradley-Terry-Luceモデルに着目し,重み付き残差バランス項を比較グラフ全体で集約することにより,偏差推定を自動化する半パラメトリック効率的な推定器を開発した。
釣りランダムウォーク(Fisher random walk)と呼ばれる新しい戦略から重みが導出されると効率が向上することを示す。
また,重み関数のポテンシャル表現により重みを計算可能な計算方法を提案する。
提案手法は,フレキシブルな深層学習手法の実践者のニーズを満たす一般スコア関数推定器に有効であることを示す。
提案手法は,ガウス乗算器ブートストラップを用いた多重仮説テストに拡張され,ファミリーワイドエラーを制御し,対象領域の推論に適合した重要サンプリング調整によって分布シフトを行う。
多様な文脈下での言語モデル評価を含む数値的研究は,本手法の精度,効率,実用性を裏付けるものである。
関連論文リスト
- Entropy-regularized Gradient Estimators for Approximate Bayesian Inference [2.44755919161855]
本稿では,Kulback-Leibler分散系の勾配流を近似することにより,ベイズ後部を推定し,多様なサンプルを生成する。
本研究は, モデルベース強化学習における手法の性能評価と有効性を検討するために, 分類タスクに関する経験的評価を行う。
論文 参考訳(メタデータ) (2025-03-15T02:30:46Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。
本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T13:04:55Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Scalable Approximate Inference and Some Applications [2.6541211006790983]
本稿では,近似推論のための新しいフレームワークを提案する。
提案する4つのアルゴリズムは,Steinの手法の最近の計算進歩に動機付けられている。
シミュレーションおよび実データを用いた結果から,アルゴリズムの統計的効率と適用性を示す。
論文 参考訳(メタデータ) (2020-03-07T04:33:27Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。