論文の概要: Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators
- arxiv url: http://arxiv.org/abs/2310.01432v2
- Date: Mon, 9 Oct 2023 07:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:06:35.235510
- Title: Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators
- Title(参考訳): 分割とマージ: 大きな言語モデルに基づくエミュレータにおける位置バイアスの調整
- Authors: Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Shuai Wang,
Cuiyun Gao, Yang Liu
- Abstract要約: PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
- 参考スコア(独自算出の注目度): 23.38206418382832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown promise as automated evaluators for
assessing the quality of answers generated by AI systems. However, these
LLM-based evaluators exhibit position bias, or inconsistency, when used to
evaluate candidate answers in pairwise comparisons, favoring either the first
or second answer regardless of content. To address this limitation, we propose
PORTIA, an alignment-based system designed to mimic human comparison strategies
to calibrate position bias in a lightweight yet effective manner. Specifically,
PORTIA splits the answers into multiple segments, aligns similar content across
candidate answers, and then merges them back into a single prompt for
evaluation by LLMs. We conducted extensive experiments with six diverse LLMs to
evaluate 11,520 answer pairs. Our results show that PORTIA markedly enhances
the consistency rates for all the models and comparison forms tested, achieving
an average relative improvement of 47.46%. Remarkably, PORTIA enables less
advanced GPT models to achieve 88% agreement with the state-of-the-art GPT-4
model at just 10% of the cost. Furthermore, it rectifies around 80% of the
position bias instances within the GPT-4 model, elevating its consistency rate
up to 98%. Subsequent human evaluations indicate that the PORTIA-enhanced
GPT-3.5 model can even surpass the standalone GPT-4 in terms of alignment with
human evaluators. These findings highlight PORTIA's ability to correct position
bias, improve LLM consistency, and boost performance while keeping
cost-efficiency. This represents a valuable step toward a more reliable and
scalable use of LLMs for automated evaluations across diverse applications.
- Abstract(参考訳): 大規模言語モデル(llm)は、aiシステムによって生成される答えの品質を評価する自動評価器として約束されている。
しかし、これらのllmベースの評価器は、対比較で候補の回答を評価する際に位置バイアスまたは不一致を示し、コンテンツに関係なく第1または第2の回答を好む。
この制限に対処するために,人間同士の比較戦略を模倣して位置バイアスを軽量かつ効果的な方法で校正するアライメントベースシステムportiaを提案する。
具体的には、Portiaは回答を複数のセグメントに分割し、類似したコンテンツを候補の回答に並べて、LSMによる評価のために単一のプロンプトにマージする。
11,520対の回答対を評価するために6種類のLSMを用いて広範囲に実験を行った。
その結果, Portia は全てのモデルと比較形態の整合性を著しく向上させ,47.46% の平均相対的改善を実現した。
注目すべきは、Portiaは、最先端のGPT-4モデルとの88%の合意を、わずか10%のコストで達成できるようにすることである。
さらに、gpt-4モデルにおける位置バイアスインスタンスの約80%を補正し、一貫性率を最大98%まで向上させる。
その後の人的評価は、Portia-enhanced GPT-3.5モデルが、人的評価器との整合性の観点から、スタンドアロンのGPT-4よりも優れていることを示している。
これらの知見は,Portiaが位置バイアスを補正し,LCMの整合性を改善し,コスト効率を維持しながら性能を向上させる能力を強調した。
これは、様々なアプリケーションにわたる自動評価のために、より信頼性が高くスケーラブルなLLMの使用に向けた貴重なステップである。
関連論文リスト
- Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on
Deceptive Prompts [59.07350713048311]
提案するMAD-Benchは,既存オブジェクト,オブジェクト数,空間関係,視覚的混乱など,850の試験サンプルを6つのカテゴリに分けたベンチマークである。
GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。
GPT-4VはMAD-Benchで75.02%の精度を達成するが、実験中の他のモデルの精度は5%から35%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [17.850224207182062]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
評価器としてのLCMの認知バイアスベンチマーク(CoBBLEr)を導入したランキングアウトプットの品質を評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。