Fugu-MT 論文翻訳(概要): Split and Merge: Aligning Position Biases in Large Language Model based Evaluators

論文の概要: Split and Merge: Aligning Position Biases in Large Language Model based Evaluators

arxiv url: http://arxiv.org/abs/2310.01432v2
Date: Mon, 9 Oct 2023 07:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 02:06:35.235510
Title: Split and Merge: Aligning Position Biases in Large Language Model based Evaluators
Title（参考訳）: 分割とマージ: 大きな言語モデルに基づくエミュレータにおける位置バイアスの調整
Authors: Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao, Yang Liu
Abstract要約: PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
参考スコア（独自算出の注目度）: 23.38206418382832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown promise as automated evaluators for assessing the quality of answers generated by AI systems. However, these LLM-based evaluators exhibit position bias, or inconsistency, when used to evaluate candidate answers in pairwise comparisons, favoring either the first or second answer regardless of content. To address this limitation, we propose PORTIA, an alignment-based system designed to mimic human comparison strategies to calibrate position bias in a lightweight yet effective manner. Specifically, PORTIA splits the answers into multiple segments, aligns similar content across candidate answers, and then merges them back into a single prompt for evaluation by LLMs. We conducted extensive experiments with six diverse LLMs to evaluate 11,520 answer pairs. Our results show that PORTIA markedly enhances the consistency rates for all the models and comparison forms tested, achieving an average relative improvement of 47.46%. Remarkably, PORTIA enables less advanced GPT models to achieve 88% agreement with the state-of-the-art GPT-4 model at just 10% of the cost. Furthermore, it rectifies around 80% of the position bias instances within the GPT-4 model, elevating its consistency rate up to 98%. Subsequent human evaluations indicate that the PORTIA-enhanced GPT-3.5 model can even surpass the standalone GPT-4 in terms of alignment with human evaluators. These findings highlight PORTIA's ability to correct position bias, improve LLM consistency, and boost performance while keeping cost-efficiency. This represents a valuable step toward a more reliable and scalable use of LLMs for automated evaluations across diverse applications.
Abstract（参考訳）: 大規模言語モデル(llm)は、aiシステムによって生成される答えの品質を評価する自動評価器として約束されている。しかし、これらのllmベースの評価器は、対比較で候補の回答を評価する際に位置バイアスまたは不一致を示し、コンテンツに関係なく第1または第2の回答を好む。この制限に対処するために,人間同士の比較戦略を模倣して位置バイアスを軽量かつ効果的な方法で校正するアライメントベースシステムportiaを提案する。具体的には、Portiaは回答を複数のセグメントに分割し、類似したコンテンツを候補の回答に並べて、LSMによる評価のために単一のプロンプトにマージする。 11,520対の回答対を評価するために6種類のLSMを用いて広範囲に実験を行った。その結果, Portia は全てのモデルと比較形態の整合性を著しく向上させ,47.46% の平均相対的改善を実現した。注目すべきは、Portiaは、最先端のGPT-4モデルとの88%の合意を、わずか10%のコストで達成できるようにすることである。さらに、gpt-4モデルにおける位置バイアスインスタンスの約80%を補正し、一貫性率を最大98%まで向上させる。その後の人的評価は、Portia-enhanced GPT-3.5モデルが、人的評価器との整合性の観点から、スタンドアロンのGPT-4よりも優れていることを示している。これらの知見は,Portiaが位置バイアスを補正し,LCMの整合性を改善し,コスト効率を維持しながら性能を向上させる能力を強調した。これは、様々なアプリケーションにわたる自動評価のために、より信頼性が高くスケーラブルなLLMの使用に向けた貴重なステップである。

関連論文リスト

References Improve LLM Alignment in Non-Verifiable Domains [118.26447686644808]
基準誘導型LCM評価器がソフトな「検証器」として機能することでギャップを埋められるか検討する。基準誘導手法は,フロンティアモデルからの参照を用いて,低能力のLCMジャッジの精度を大幅に向上することを示す。基準誘導自己改善は、基準出力に対する直接SFTと基準自由判断による自己改善の両方に対して明らかな利得が得られることを示す。
論文参考訳（メタデータ） (2026-02-18T19:03:34Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。 GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文参考訳（メタデータ） (2024-12-18T18:41:12Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation [20.41379322900742]
基礎的な大規模オートラタモデルのファミリーであるFLAMeを紹介する。 FLAMeは、100以上の品質評価タスクの大規模で多様なコレクションに基づいて訓練されています。 FLAMeは下流の微調整のための強力な出発点としても機能することを示す。
論文参考訳（メタデータ） (2024-07-15T15:33:45Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。 RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。 ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文参考訳（メタデータ） (2023-10-20T20:17:09Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
Benchmarking Cognitive Biases in Large Language Models as Evaluators [16.845939677403287]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。 LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文参考訳（メタデータ） (2023-09-29T06:53:10Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。