論文の概要: Aligning Language Model Benchmarks with Pairwise Preferences
- arxiv url: http://arxiv.org/abs/2602.02898v1
- Date: Mon, 02 Feb 2026 23:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.128334
- Title: Aligning Language Model Benchmarks with Pairwise Preferences
- Title(参考訳): Pairwise Preferencesを用いた言語モデルベンチマークの調整
- Authors: Marco Gutierrez, Xinyi Leng, Hannah Cyberey, Jonathan Richard Schwarz, Ahmed Alaa, Thomas Hartvigsen,
- Abstract要約: ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。
次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。
我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
- 参考スコア(独自算出の注目度): 15.427340427081843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model benchmarks are pervasive and computationally-efficient proxies for real-world performance. However, many recent works find that benchmarks often fail to predict real utility. Towards bridging this gap, we introduce benchmark alignment, where we use limited amounts of information about model performance to automatically update offline benchmarks, aiming to produce new static benchmarks that predict model pairwise preferences in given test settings. We then propose BenchAlign, the first solution to this problem, which learns preference-aligned weight- ings for benchmark questions using the question-level performance of language models alongside ranked pairs of models that could be collected during deployment, producing new benchmarks that rank previously unseen models according to these preferences. Our experiments show that our aligned benchmarks can accurately rank unseen models according to models of human preferences, even across different sizes, while remaining interpretable. Overall, our work provides insights into the limits of aligning benchmarks with practical human preferences, which stands to accelerate model development towards real utility.
- Abstract(参考訳): 言語モデルベンチマークは、現実世界のパフォーマンスのための広範かつ計算効率の良いプロキシである。
しかし、最近の多くの研究によると、ベンチマークは実効性を予測できないことが多い。
このギャップを埋めるために、ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた情報を使用してオフラインベンチマークを自動的に更新し、与えられたテスト設定でモデルペアの好みを予測する新しい静的ベンチマークを作成します。
次に、この問題の第一の解決策であるBenchAlignを提案する。これは、言語モデルの問合せレベルの性能と、デプロイメント中に収集できるモデルのランク付けペアを用いて、これらの選好に従って未確認モデルにランク付けされた新しいベンチマークを生成する。
我々の実験では、一致したベンチマークは、異なるサイズであっても、人間の好みのモデルに従って、正確には見つからないモデルをランク付けし、解釈可能であることを示した。
全体として、我々の研究は、実際の実用に向けてのモデル開発を加速するために、ベンチマークと実践的な人間の嗜好との整合性の限界についての洞察を提供する。
関連論文リスト
- Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。