論文の概要: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- arxiv url: http://arxiv.org/abs/2405.05894v2
- Date: Sun, 9 Jun 2024 17:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:04:39.290507
- Title: Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons
- Title(参考訳): LLMの比較を効果的に評価する: Pairwise ComparisonsのためのExperts Frameworkの製品
- Authors: Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales,
- Abstract要約: 本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
- 参考スコア(独自算出の注目度): 10.94304714004328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-judge approaches are a practical and effective way of assessing a range of text tasks, aligning with human judgements especially when applied in a comparative assessment fashion. However, when using pairwise comparisons to rank a set of candidates the computational costs scale quadratically with the number of candidates, which can have practical limitations. This paper introduces a Product of Expert (PoE) framework for efficient LLM Comparative Assessment. Here individual comparisons are considered experts that provide information on a pair's score difference. The PoE framework combines the information from these experts to yield an expression that can be maximized with respect to the underlying set of candidates, and is highly flexible where any form of expert can be assumed. When Gaussian experts are used one can derive simple closed-form solutions for the optimal candidate ranking, as well as expressions for selecting which comparisons should be made to maximize the probability of this ranking. Our approach enables efficient comparative assessment, where by using only a small subset of the possible comparisons, one can generate score predictions that correlate as well to human judgements as the predictions when all comparisons are used. We evaluate the approach on multiple NLG tasks and demonstrate that our framework can yield considerable computational savings when performing pairwise comparative assessment. When N is large, with as few as 2% of comparisons the PoE solution can achieve similar performance to when all comparisons are used.
- Abstract(参考訳): LLM-as-a-judgeアプローチは、テキストタスクの範囲を評価するための実用的で効果的な方法であり、特に比較評価方式で適用された場合、人間の判断に合致する。
しかし、一組の候補をランク付けするためにペアワイズ比較を使用する場合、計算コストは候補数と2次的にスケールし、実際的な制限がある。
本稿では,LLM比較評価の効率化を目的としたProduct of Expert (PoE)フレームワークを提案する。
ここでは、ペアのスコア差に関する情報を提供する専門家を個別に比較する。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補の集合に対して最大化できる表現を与え、あらゆる種類の専門家を仮定できる高度に柔軟である。
ガウスの専門家が用いられるとき、最適な候補ランク付けのための単純な閉形式解を導出し、このランク付けの確率を最大化するためにどの比較を行うべきかを選択する式を導出することができる。
提案手法は,比較対象のごく一部だけを用いて,評価結果と人間の判断を関連づけたスコア予測を,全ての比較結果を用いた場合の予測として生成する,効率的な比較評価を可能にする。
我々は複数のNLGタスクに対するアプローチを評価し、我々のフレームワークがペアワイズ比較評価を行う際にかなりの計算的節約が得られることを示した。
N が大きければ、比較の 2% に満たないので、PoE ソリューションは全ての比較が使用されるのと同じような性能が得られる。
関連論文リスト
- AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Efficient Pointwise-Pairwise Learning-to-Rank for News Recommendation [6.979979613916754]
ニュースレコメンデーションは、各ユーザのインタラクション履歴と好みに基づいてパーソナライズを行う、困難なタスクである。
最近の研究は、事前学習された言語モデル(PLM)の力を利用して、ニュース項目を直接ランク付けする手法を用いて、ポイントワイド、ペアワイド、リストワイドの3つのカテゴリに分類している。
本稿では,PLMに基づくニュースレコメンデーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T10:27:19Z) - Finetuning LLMs for Comparative Assessment Tasks [9.05771474043499]
比較評価のための大規模言語モデルを微調整するためのフレームワークを提案する。
ソフト確率のトレーニングにより,本手法は最先端の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-24T11:21:43Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Ranking from Pairwise Comparisons in General Graphs and Graphs with
Locality [3.1219977244201056]
本稿では,古典的Bradley-Terry-Luceモデル(BTL)のペア比較によるランキング問題について検討する。
十分に多くのサンプルを用いて,Cram'er-Rao の下界と一致するエントリワイズ推定誤差が得られることを示す。
我々は、最も広いサンプルを持つ体制においても、同様の保証を確実に達成できる分割対コンカマーのアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-04-13T21:14:30Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。