論文の概要: Prediction-Powered Ranking of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17826v1
- Date: Tue, 27 Feb 2024 19:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:25:40.027849
- Title: Prediction-Powered Ranking of Large Language Models
- Title(参考訳): 大規模言語モデルの予測駆動ランキング
- Authors: Ivi Chatzi, Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez
- Abstract要約: 大規模な言語モデルは、しばしば人間の好みに合わせてランク付けされる。
我々は,人間とモデルの間のギャップを埋める統計的枠組みを開発する。
- 参考スコア(独自算出の注目度): 14.478233576808876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often ranked according to their level of alignment
with human preferences -- a model is better than other models if its outputs
are more frequently preferred by humans. One of the most popular ways to elicit
human preferences utilizes pairwise comparisons between the outputs provided by
different models to the same inputs. However, since gathering pairwise
comparisons by humans is costly and time-consuming, it has become a very common
practice to gather pairwise comparisons by a strong large language model -- a
model strongly aligned with human preferences. Surprisingly, practitioners
cannot currently measure the uncertainty that any mismatch between human and
model preferences may introduce in the constructed rankings. In this work, we
develop a statistical framework to bridge this gap. Given a small set of
pairwise comparisons by humans and a large set of pairwise comparisons by a
model, our framework provides a rank-set -- a set of possible ranking positions
-- for each of the models under comparison. Moreover, it guarantees that, with
a probability greater than or equal to a user-specified value, the rank-sets
cover the true ranking consistent with (the distribution of) human pairwise
preferences. Our framework is computationally efficient, easy to use, and does
not make any assumption about the distribution of human preferences nor about
the degree of alignment between the pairwise comparisons by the humans and the
strong large language model.
- Abstract(参考訳): 大規模な言語モデルは、人間の好みに合わせてランク付けされることが多い -- アウトプットが人間に好まれる場合、他のモデルよりも優れたモデルである。
人間の嗜好を引き出す最も一般的な方法の1つは、異なるモデルによって提供される出力と同じ入力とのペアワイズ比較を利用する。
しかし、人間による対数比較の収集は費用がかかり、時間を要するため、強力な大規模言語モデルによって対数比較を収集することは、非常に一般的なプラクティスとなっている。
驚いたことに、現在、人間とモデルの選好のミスマッチが構築されたランキングに導入される可能性があるという不確実性を測定することはできない。
本研究では,このギャップを埋める統計的枠組みを開発する。
人間によるペアワイズ比較の小さなセットとモデルによるペアワイズ比較の大規模なセットが与えられた場合、我々のフレームワークは比較対象の各モデルに対してランクセット – 可能なランク位置のセット – を提供する。
さらに、利用者が指定した値以上の確率を持つ場合、ランク集合は、人間同士の選好(分布)と一致する真のランキングをカバーすることが保証される。
私たちのフレームワークは計算効率が良く、使いやすいので、人間の好みの分布や、人間による対比較と強力な大きな言語モデルとのアライメントの程度については仮定していません。
関連論文リスト
- Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-04-13T19:54:51Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - A General Language Assistant as a Laboratory for Alignment [3.3598752405752106]
簡単なベースライン手法と,プロンプトなどの評価について検討する。
モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。
本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
論文 参考訳(メタデータ) (2021-12-01T22:24:34Z) - Combining Human Predictions with Model Probabilities via Confusion
Matrices and Calibration [11.75395256889808]
本研究では,モデルの確率的出力と人間のクラスレベルの出力を結合するアルゴリズムの開発を行う。
理論的には, 組み合わせモデルの精度は, 個々の人やモデルの精度だけでなく, モデルの信頼性にも左右されることが示されている。
論文 参考訳(メタデータ) (2021-09-29T17:43:15Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Is the Best Better? Bayesian Statistical Model Comparison for Natural
Language Processing [7.65607696962806]
複数のデータセットにまたがる k-fold cross-validation を用いた統計モデル比較手法を提案する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。
論文 参考訳(メタデータ) (2020-10-06T23:37:28Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。