論文の概要: Prediction-Powered Ranking of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17826v1
- Date: Tue, 27 Feb 2024 19:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:25:40.027849
- Title: Prediction-Powered Ranking of Large Language Models
- Title(参考訳): 大規模言語モデルの予測駆動ランキング
- Authors: Ivi Chatzi, Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez
- Abstract要約: 大規模な言語モデルは、しばしば人間の好みに合わせてランク付けされる。
我々は,人間とモデルの間のギャップを埋める統計的枠組みを開発する。
- 参考スコア(独自算出の注目度): 14.478233576808876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often ranked according to their level of alignment
with human preferences -- a model is better than other models if its outputs
are more frequently preferred by humans. One of the most popular ways to elicit
human preferences utilizes pairwise comparisons between the outputs provided by
different models to the same inputs. However, since gathering pairwise
comparisons by humans is costly and time-consuming, it has become a very common
practice to gather pairwise comparisons by a strong large language model -- a
model strongly aligned with human preferences. Surprisingly, practitioners
cannot currently measure the uncertainty that any mismatch between human and
model preferences may introduce in the constructed rankings. In this work, we
develop a statistical framework to bridge this gap. Given a small set of
pairwise comparisons by humans and a large set of pairwise comparisons by a
model, our framework provides a rank-set -- a set of possible ranking positions
-- for each of the models under comparison. Moreover, it guarantees that, with
a probability greater than or equal to a user-specified value, the rank-sets
cover the true ranking consistent with (the distribution of) human pairwise
preferences. Our framework is computationally efficient, easy to use, and does
not make any assumption about the distribution of human preferences nor about
the degree of alignment between the pairwise comparisons by the humans and the
strong large language model.
- Abstract(参考訳): 大規模な言語モデルは、人間の好みに合わせてランク付けされることが多い -- アウトプットが人間に好まれる場合、他のモデルよりも優れたモデルである。
人間の嗜好を引き出す最も一般的な方法の1つは、異なるモデルによって提供される出力と同じ入力とのペアワイズ比較を利用する。
しかし、人間による対数比較の収集は費用がかかり、時間を要するため、強力な大規模言語モデルによって対数比較を収集することは、非常に一般的なプラクティスとなっている。
驚いたことに、現在、人間とモデルの選好のミスマッチが構築されたランキングに導入される可能性があるという不確実性を測定することはできない。
本研究では,このギャップを埋める統計的枠組みを開発する。
人間によるペアワイズ比較の小さなセットとモデルによるペアワイズ比較の大規模なセットが与えられた場合、我々のフレームワークは比較対象の各モデルに対してランクセット – 可能なランク位置のセット – を提供する。
さらに、利用者が指定した値以上の確率を持つ場合、ランク集合は、人間同士の選好(分布)と一致する真のランキングをカバーすることが保証される。
私たちのフレームワークは計算効率が良く、使いやすいので、人間の好みの分布や、人間による対比較と強力な大きな言語モデルとのアライメントの程度については仮定していません。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Combining Human Predictions with Model Probabilities via Confusion
Matrices and Calibration [11.75395256889808]
本研究では,モデルの確率的出力と人間のクラスレベルの出力を結合するアルゴリズムの開発を行う。
理論的には, 組み合わせモデルの精度は, 個々の人やモデルの精度だけでなく, モデルの信頼性にも左右されることが示されている。
論文 参考訳(メタデータ) (2021-09-29T17:43:15Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Is the Best Better? Bayesian Statistical Model Comparison for Natural
Language Processing [7.65607696962806]
複数のデータセットにまたがる k-fold cross-validation を用いた統計モデル比較手法を提案する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。
論文 参考訳(メタデータ) (2020-10-06T23:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。