論文の概要: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- arxiv url: http://arxiv.org/abs/2405.05894v1
- Date: Thu, 9 May 2024 16:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:43:04.419316
- Title: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- Title(参考訳): LLMの比較を効果的に評価する: Pairwise ComparisonsのためのExperts Frameworkの製品
- Authors: Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales,
- Abstract要約: 本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
- 参考スコア(独自算出の注目度): 10.94304714004328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-judge approaches are a practical and effective way of assessing a range of text tasks, aligning with human judgements especially when applied in a comparative assessment fashion. However, when using pairwise comparisons to rank a set of candidates the computational costs scale quadratically with the number of candidates, which can have practical limitations. This paper introduces a Product of Expert (PoE) framework for efficient LLM Comparative Assessment. Here individual comparisons are considered experts that provide information on a pair's score difference. The PoE framework combines the information from these experts to yield an expression that can be maximized with respect to the underlying set of candidates, and is highly flexible where any form of expert can be assumed. When Gaussian experts are used one can derive simple closed-form solutions for the optimal candidate ranking, as well as expressions for selecting which comparisons should be made to maximize the probability of this ranking. Our approach enables efficient comparative assessment, where by using only a small subset of the possible comparisons, one can generate score predictions that correlate as well to human judgements as the predictions when all comparisons are used. We evaluate the approach on multiple NLG tasks and demonstrate that our framework can yield considerable computational savings when performing pairwise comparative assessment. When N is large, with as few as 2% of comparisons the PoE solution can achieve similar performance to when all comparisons are used.
- Abstract(参考訳): LLM-as-a-judgeアプローチは、テキストタスクの範囲を評価するための実用的で効果的な方法であり、特に比較評価方式で適用された場合、人間の判断に合致する。
しかし、一組の候補をランク付けするためにペアワイズ比較を使用する場合、計算コストは候補数と2次的にスケールし、実際的な制限がある。
本稿では,LLM比較評価の効率化を目的としたProduct of Expert (PoE)フレームワークを提案する。
ここでは、ペアのスコア差に関する情報を提供する専門家を個別に比較する。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補の集合に対して最大化できる表現を与え、あらゆる種類の専門家を仮定できる高度に柔軟である。
ガウスの専門家が用いられるとき、最適な候補ランク付けのための単純な閉形式解を導出し、このランク付けの確率を最大化するためにどの比較を行うべきかを選択する式を導出することができる。
提案手法は,比較対象のごく一部だけを用いて,評価結果と人間の判断を関連づけたスコア予測を,全ての比較結果を用いた場合の予測として生成する,効率的な比較評価を可能にする。
我々は複数のNLGタスクに対するアプローチを評価し、我々のフレームワークがペアワイズ比較評価を行う際にかなりの計算的節約が得られることを示した。
N が大きければ、比較の 2% に満たないので、PoE ソリューションは全ての比較が使用されるのと同じような性能が得られる。
関連論文リスト
- RecSys Arena: Pair-wise Recommender System Evaluation with Large Language Models [40.74293642666989]
提案するRecSys Arenaでは,2種類のレコメンデーションシステムによるレコメンデーション結果がLLM審査員によって評価され,きめ細かい評価フィードバックが得られる。
我々は多くの異なるLCMが標準オフラインメトリクスと高度に一致した一般的な評価結果を提供することを示した。
AUCやnDCGと同等の性能の異なるアルゴリズムを区別できる。
論文 参考訳(メタデータ) (2024-12-15T05:57:36Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Efficient Pointwise-Pairwise Learning-to-Rank for News Recommendation [6.979979613916754]
ニュースレコメンデーションは、各ユーザのインタラクション履歴と好みに基づいてパーソナライズを行う、困難なタスクである。
最近の研究は、事前学習された言語モデル(PLM)の力を利用して、ニュース項目を直接ランク付けする手法を用いて、ポイントワイド、ペアワイド、リストワイドの3つのカテゴリに分類している。
本稿では,PLMに基づくニュースレコメンデーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T10:27:19Z) - Finetuning LLMs for Comparative Assessment Tasks [9.05771474043499]
比較評価のための大規模言語モデルを微調整するためのフレームワークを提案する。
ソフト確率のトレーニングにより,本手法は最先端の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-24T11:21:43Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。