論文の概要: Nonparametric LLM Evaluation from Preference Data
- arxiv url: http://arxiv.org/abs/2601.21816v1
- Date: Thu, 29 Jan 2026 15:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.914181
- Title: Nonparametric LLM Evaluation from Preference Data
- Title(参考訳): 選好データを用いた非パラメトリックLCM評価
- Authors: Dennis Frauen, Athiya Deviyani, Mihaela van der Schaar, Stefan Feuerriegel,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を選好データから比較・ランク付けするための非パラメトリック統計フレームワークDMLEvalを提案する。
我々のフレームワークは、LLMを比較したり、ランキングしたりするための強力な最先端の手法を実践者に提供します。
- 参考スコア(独自算出の注目度): 86.96268870461472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the performance of large language models (LLMs) from human preference data is crucial for obtaining LLM leaderboards. However, many existing approaches either rely on restrictive parametric assumptions or lack valid uncertainty quantification when flexible machine learning methods are used. In this paper, we propose a nonparametric statistical framework, DMLEval, for comparing and ranking LLMs from preference data using debiased machine learning (DML). For this, we introduce generalized average ranking scores (GARS), which generalize commonly used ranking models, including the Bradley-Terry model or PageRank/ Rank centrality, with complex human responses such as ties. DMLEval comes with the following advantages: (i) It produces statistically efficient estimates of GARS ranking scores. (ii) It naturally allows the incorporation of black-box machine learning methods for estimation. (iii) It can be combined with pre-trained LLM evaluators (e.g., using LLM-as-a-judge). (iv) It suggests optimal policies for collecting preference data under budget constraints. We demonstrate these advantages both theoretically and empirically using both synthetic and real-world preference datasets. In summary, our framework provides practitioners with powerful, state-of-the-art methods for comparing or ranking LLMs.
- Abstract(参考訳): 人選好データから大規模言語モデル(LLM)の性能を評価することは,LLMリーダーボードの獲得に不可欠である。
しかし、既存の多くのアプローチは制限的なパラメトリック仮定に依存するか、フレキシブルな機械学習手法を使用する際に有効な不確実な定量化を欠いている。
本稿では,非パラメトリックな統計フレームワークであるDMLEvalを提案する。
そこで我々は、Bradley-TerryモデルやPageRank/ Rank Centralityなど、一般的なランキングモデルを一般化した一般化平均ランキングスコア(GARS)を導入する。
DMLEvalには次のような利点がある。
i)GARSランキングスコアの統計的に効率的な推定値を生成する。
(II)ブラックボックス機械学習手法の導入を自然に可能とすること。
(iii)事前訓練したLLM評価器(例:LLM-as-a-judge)と組み合わせることができる。
(4)予算制約下での選好データ収集に最適な政策を提案する。
我々はこれらの利点を理論的および実証的に、合成および実世界の嗜好データセットの両方を用いて示す。
まとめると、我々のフレームワークは、LLMの比較やランキングのための強力な最先端の手法を実践者に提供します。
関連論文リスト
- Towards Universal Debiasing for Language Models-based Tabular Data Generation [16.31419748401203]
我々は,グループレベルの依存性を最小限に抑える汎用的デバイアスフレームワークを導入し,有利属性と保護属性の相互情報を同時に低減する。
当社のフレームワークは公平性とユーティリティのバランスを効果的に保ち、高度アプリケーションでデバイアスを行うためのスケーラブルで実用的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-09-20T00:06:53Z) - Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。
電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。
以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文 参考訳(メタデータ) (2025-07-23T07:51:56Z) - ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Rule-based Data Selection for Large Language Models [9.886837013587124]
トレーニングデータの質は、大規模言語モデル(LLM)の性能に大きく影響する。
複数の人為的指標(ルール)に基づいてデータを評価・選択するためにLLMを用いた研究が増えている。
従来のルールベースのアプローチは、しばしば人間のベクトルに強く依存し、ルールを評価するための効果的な指標が欠如し、新しいタスクへの適応性が制限されている。
論文 参考訳(メタデータ) (2024-10-07T03:13:06Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。