論文の概要: Prediction-Powered Ranking of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17826v2
- Date: Thu, 23 May 2024 16:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:29:07.867489
- Title: Prediction-Powered Ranking of Large Language Models
- Title(参考訳): 予測による大言語モデルのランク付け
- Authors: Ivi Chatzi, Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez,
- Abstract要約: 大規模な言語モデルは、しばしば人間の好みに合わせてランク付けされる。
このギャップを埋める統計フレームワークを開発します。
ペアワイズ比較のみを用いて構築されたランクセットは、人間のペアワイズ選好と(分布の)矛盾することが多いことを示す。
- 参考スコア(独自算出の注目度): 13.25325920774249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often ranked according to their level of alignment with human preferences -- a model is better than other models if its outputs are more frequently preferred by humans. One of the popular ways to elicit human preferences utilizes pairwise comparisons between the outputs provided by different models to the same inputs. However, since gathering pairwise comparisons by humans is costly and time-consuming, it has become a common practice to gather pairwise comparisons by a strong large language model -- a model strongly aligned with human preferences. Surprisingly, practitioners cannot currently measure the uncertainty that any mismatch between human and model preferences may introduce in the constructed rankings. In this work, we develop a statistical framework to bridge this gap. Given a (small) set of pairwise comparisons by humans and a large set of pairwise comparisons by a model, our framework provides a rank-set -- a set of possible ranking positions -- for each of the models under comparison. Moreover, it guarantees that, with a probability greater than or equal to a user-specified value, the rank-sets cover the true ranking consistent with the distribution of human pairwise preferences asymptotically. Using pairwise comparisons made by humans in the LMSYS Chatbot Arena platform and pairwise comparisons made by three strong large language models, we empirically demonstrate the effectivity of our framework and show that the rank-sets constructed using only pairwise comparisons by the strong large language models are often inconsistent with (the distribution of) human pairwise preferences.
- Abstract(参考訳): 大規模な言語モデルは、人間の好みに合わせてランク付けされることが多い -- アウトプットが人間に好まれる場合、他のモデルよりも優れたモデルである。
人間の嗜好を引き出す一般的な方法の1つは、異なるモデルによって提供された出力と同一の入力とのペアワイズ比較を利用する。
しかしながら、人間によるペアワイズ比較の収集は費用がかかり時間もかかるため、強い言語モデルによるペアワイズ比較の収集は一般的な慣習となっている。
驚いたことに、現在、人間とモデルの選好のミスマッチが構築されたランキングに導入される可能性があるという不確実性を測定することはできない。
本研究では,このギャップを埋める統計的枠組みを開発する。
人間による(小さな)ペアワイズ比較とモデルによるペアワイズ比較の大きなセットが与えられた場合、我々のフレームワークは、比較対象の各モデルに対してランクセット – 可能なランク位置のセット – を提供する。
さらに、ユーザ指定値以上の確率で、ランクセットが人間のペアワイズ選好の分布と漸近的に一致した真のランキングをカバーすることを保証している。
LMSYS Chatbot Arena プラットフォームにおける人間によるペアワイド比較と、3つの強大言語モデルによるペアワイド比較を用いて、我々のフレームワークの有効性を実証的に実証し、強大言語モデルによるペアワイド比較のみを用いて構築されたランクセットが、人間のペアワイド選好と矛盾することが多いことを示す。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Combining Human Predictions with Model Probabilities via Confusion
Matrices and Calibration [11.75395256889808]
本研究では,モデルの確率的出力と人間のクラスレベルの出力を結合するアルゴリズムの開発を行う。
理論的には, 組み合わせモデルの精度は, 個々の人やモデルの精度だけでなく, モデルの信頼性にも左右されることが示されている。
論文 参考訳(メタデータ) (2021-09-29T17:43:15Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Is the Best Better? Bayesian Statistical Model Comparison for Natural
Language Processing [7.65607696962806]
複数のデータセットにまたがる k-fold cross-validation を用いた統計モデル比較手法を提案する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。
論文 参考訳(メタデータ) (2020-10-06T23:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。