論文の概要: RevisEval: Improving LLM-as-a-Judge via Response-Adapted References
- arxiv url: http://arxiv.org/abs/2410.05193v2
- Date: Tue, 18 Feb 2025 15:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:32.268521
- Title: RevisEval: Improving LLM-as-a-Judge via Response-Adapted References
- Title(参考訳): RevisEval: 応答適応参照によるLCM-as-a-Judgeの改善
- Authors: Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma,
- Abstract要約: RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
- 参考スコア(独自算出の注目度): 95.29800580588592
- License:
- Abstract: With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval's effectiveness in bias reduction, the impact of inference cost, and reference relevance.
- Abstract(参考訳): 近年, LLM-as-a-Judge は, テキスト生成の質を評価する上で, 人的評価に代えて, 費用対効果の高い代替手段となっている。
しかし, LLM-as-a-Judgeと人的評価との間には信頼性のギャップが残っている。
重要な理由の1つは、評価プロセスにおけるガイド付きオラクルの欠如である。
古典的テキスト評価において広く使われている参照の役割を動機として,応答適応参照を用いた新たなテキスト生成評価パラダイムであるRevisEvalを紹介した。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
具体的には、大規模な言語モデル(LLM)のテキストリビジョン機能を活用して、応答を適応的に修正し、その後の評価のために、修正されたテキストを参照(レスポンス適応参照)として扱う。
広範にわたる実験により、RevisEvalは、NLGタスクとオープンエンド命令フォロータスクにLLM-as-a-Judgeを使用する従来の基準フリーおよび基準ベース評価パラダイムよりも優れていることが示された。
さらに重要なのは、従来の参照よりも古典的なテキストメトリクス(例えば、BLEU、BERTScore)が向上し、LLM-as-a-Judgeと競合することです。
また,RevisEvalのバイアス低減効果,推論コストの影響,参照関連性について,詳細な分析を行った。
関連論文リスト
- Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models [7.529095331830944]
大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。
本稿では,LLMのベンチマーク評価評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:42:02Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications [26.857056013032263]
大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。
我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
論文 参考訳(メタデータ) (2024-04-10T15:46:08Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。