論文の概要: PRePair: Pointwise Reasoning Enhance Pairwise Evaluating for Robust Instruction-Following Assessments
- arxiv url: http://arxiv.org/abs/2406.12319v1
- Date: Tue, 18 Jun 2024 06:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:25:52.431725
- Title: PRePair: Pointwise Reasoning Enhance Pairwise Evaluating for Robust Instruction-Following Assessments
- Title(参考訳): PRePair:ロバスト教育評価のためのポイントワイド推論エンハンス評価
- Authors: Hawon Jeong, ChaeHun Park, Jimin Hong, Jaegul Choo,
- Abstract要約: 我々は、望ましくない好みに対して、ポイントワイズ評価がより堅牢性を示すことを示した。
本稿では,一対評価にポイントワイド推論を統合するハイブリッド手法を提案する。
- 参考スコア(独自算出の注目度): 32.54783419675456
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pairwise evaluation using large language models (LLMs) is widely used for evaluating natural language generation (NLG) tasks. However, the reliability of LLMs is often compromised by biases, such as favoring verbosity and authoritative tone. In the study, we focus on the comparison of two LLM-based evaluation approaches, pointwise and pairwise. Our findings demonstrate that pointwise evaluators exhibit more robustness against undesirable preferences. Further analysis reveals that pairwise evaluators can accurately identify the shortcomings of low-quality outputs even when their judgment is incorrect. These results indicate that LLMs are more severely influenced by their bias in a pairwise evaluation setup. To mitigate this, we propose a hybrid method that integrates pointwise reasoning into pairwise evaluation. Experimental results show that our method enhances the robustness of pairwise evaluators against adversarial samples while preserving accuracy on normal samples.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたペアワイズ評価は,自然言語生成(NLG)タスクの評価に広く用いられている。
しかしながら、LLMの信頼性は、冗長性や権威的なトーンを好むなど、バイアスによって損なわれることが多い。
本研究では,LLMに基づく2つの評価手法の比較に焦点をあてる。
以上の結果から, 望ましくない選好に対して, ポイントワイズ評価がより堅牢であることが示唆された。
さらに分析したところ、ペアワイズ評価器は、判断が誤りであっても、低品質な出力の欠点を正確に識別できることがわかった。
これらの結果から,LLMは両面評価装置の偏りに強く影響していることが示唆された。
そこで本研究では,ポイントワイズ推論をペアワイズ評価に統合するハイブリッド手法を提案する。
実験結果から,本手法は,通常の試料の精度を保ちつつ,対方向評価器の対向試料に対する堅牢性を高めることが示唆された。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - CASPR: Automated Evaluation Metric for Contrastive Summarization [4.310460539747285]
本稿では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。
従来のデータセットであるCoCoTRIPによる結果から,CASPRは,ベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることが示された。
論文 参考訳(メタデータ) (2024-04-23T23:27:29Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。