論文の概要: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- arxiv url: http://arxiv.org/abs/2405.05894v1
- Date: Thu, 9 May 2024 16:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:43:04.419316
- Title: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- Title(参考訳): LLMの比較を効果的に評価する: Pairwise ComparisonsのためのExperts Frameworkの製品
- Authors: Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales,
- Abstract要約: 本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
- 参考スコア(独自算出の注目度): 10.94304714004328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-judge approaches are a practical and effective way of assessing a range of text tasks, aligning with human judgements especially when applied in a comparative assessment fashion. However, when using pairwise comparisons to rank a set of candidates the computational costs scale quadratically with the number of candidates, which can have practical limitations. This paper introduces a Product of Expert (PoE) framework for efficient LLM Comparative Assessment. Here individual comparisons are considered experts that provide information on a pair's score difference. The PoE framework combines the information from these experts to yield an expression that can be maximized with respect to the underlying set of candidates, and is highly flexible where any form of expert can be assumed. When Gaussian experts are used one can derive simple closed-form solutions for the optimal candidate ranking, as well as expressions for selecting which comparisons should be made to maximize the probability of this ranking. Our approach enables efficient comparative assessment, where by using only a small subset of the possible comparisons, one can generate score predictions that correlate as well to human judgements as the predictions when all comparisons are used. We evaluate the approach on multiple NLG tasks and demonstrate that our framework can yield considerable computational savings when performing pairwise comparative assessment. When N is large, with as few as 2% of comparisons the PoE solution can achieve similar performance to when all comparisons are used.
- Abstract(参考訳): LLM-as-a-judgeアプローチは、テキストタスクの範囲を評価するための実用的で効果的な方法であり、特に比較評価方式で適用された場合、人間の判断に合致する。
しかし、一組の候補をランク付けするためにペアワイズ比較を使用する場合、計算コストは候補数と2次的にスケールし、実際的な制限がある。
本稿では,LLM比較評価の効率化を目的としたProduct of Expert (PoE)フレームワークを提案する。
ここでは、ペアのスコア差に関する情報を提供する専門家を個別に比較する。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補の集合に対して最大化できる表現を与え、あらゆる種類の専門家を仮定できる高度に柔軟である。
ガウスの専門家が用いられるとき、最適な候補ランク付けのための単純な閉形式解を導出し、このランク付けの確率を最大化するためにどの比較を行うべきかを選択する式を導出することができる。
提案手法は,比較対象のごく一部だけを用いて,評価結果と人間の判断を関連づけたスコア予測を,全ての比較結果を用いた場合の予測として生成する,効率的な比較評価を可能にする。
我々は複数のNLGタスクに対するアプローチを評価し、我々のフレームワークがペアワイズ比較評価を行う際にかなりの計算的節約が得られることを示した。
N が大きければ、比較の 2% に満たないので、PoE ソリューションは全ての比較が使用されるのと同じような性能が得られる。
関連論文リスト
- Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - An Approach to Multiple Comparison Benchmark Evaluations that is Stable
Under Manipulation of the Comparate Set [10.353747919337817]
ベンチマーク比較の結果を示す新しい手法として,MCM(Multiple Comparison Matrix)を提案する。
MCMはペアワイズ比較を優先し、既存のアプローチで実験結果を操作する手段を阻害する。
MCMはPythonで実装されており、公開されている。
論文 参考訳(メタデータ) (2023-05-19T08:58:55Z) - Ranking from Pairwise Comparisons in General Graphs and Graphs with
Locality [3.1219977244201056]
本稿では,古典的Bradley-Terry-Luceモデル(BTL)のペア比較によるランキング問題について検討する。
十分に多くのサンプルを用いて,Cram'er-Rao の下界と一致するエントリワイズ推定誤差が得られることを示す。
我々は、最も広いサンプルを持つ体制においても、同様の保証を確実に達成できる分割対コンカマーのアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-04-13T21:14:30Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。