Fugu-MT 論文翻訳(概要): CheckEval: Robust Evaluation Framework using Large Language Model via Checklist

論文の概要: CheckEval: Robust Evaluation Framework using Large Language Model via Checklist

arxiv url: http://arxiv.org/abs/2403.18771v1
Date: Wed, 27 Mar 2024 17:20:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 15:59:48.011530
Title: CheckEval: Robust Evaluation Framework using Large Language Model via Checklist
Title（参考訳）: CheckEval: Checklistによる大規模言語モデルによるロバスト評価フレームワーク
Authors: Yukyung Lee, Joonghoon Kim, Jaehee Kim, Hyowon Cho, Pilsung Kang,
Abstract要約: 大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
参考スコア（独自算出の注目度）: 6.713203569074019
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce CheckEval, a novel evaluation framework using Large Language Models, addressing the challenges of ambiguity and inconsistency in current evaluation methods. CheckEval addresses these challenges by dividing evaluation criteria into detailed sub-aspects and constructing a checklist of Boolean questions for each, simplifying the evaluation. This approach not only renders the process more interpretable but also significantly enhances the robustness and reliability of results by focusing on specific evaluation dimensions. Validated through a focused case study using the SummEval benchmark, CheckEval indicates a strong correlation with human judgments. Furthermore, it demonstrates a highly consistent Inter-Annotator Agreement. These findings highlight the effectiveness of CheckEval for objective, flexible, and precise evaluations. By offering a customizable and interactive framework, CheckEval sets a new standard for the use of LLMs in evaluation, responding to the evolving needs of the field and establishing a clear method for future LLM-based evaluation.
Abstract（参考訳）: 本稿では,大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、評価基準を詳細なサブアスペクトに分割し、それぞれにBooleanの質問のチェックリストを構築し、評価を単純化することで、これらの課題に対処する。このアプローチはプロセスをより解釈しやすくするだけでなく、特定の評価次元に焦点をあてることで、結果の堅牢性と信頼性を大幅に向上させる。 SummEvalベンチマークを用いたケーススタディを通じて検証されたCheckEvalは、人間の判断と強い相関関係を示している。さらに、非常に一貫性のあるアノテーション間の合意を示す。これらの結果から, 客観的, フレキシブル, 正確な評価におけるCheckEvalの有効性が示唆された。カスタマイズ可能でインタラクティブなフレームワークを提供することで、CheckEvalはLLMを評価に使用するための新しい標準を設定し、フィールドの進化するニーズに対応し、将来のLLMベースの評価のための明確な方法を確立する。

関連論文リスト

Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes [2.9195489041890297]
裁判官としての大規模言語モデル(LaaJ)は、専門家レビューに代わるスケーラブルな代替手段を提供する。検証がなければ、組織はモデルのアウトプットを評価するために未検証のLaaJを使用することで、丸い評価ループのリスクを負う。 SparseAlignは、スパースな人間のラベル付きデータとLaaJアライメントを評価するための正式なフレームワークである。
論文参考訳（メタデータ） (2025-10-31T07:27:54Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。 6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。 SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文参考訳（メタデータ） (2025-08-29T08:05:00Z)
Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。 LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文参考訳（メタデータ） (2025-06-27T15:25:23Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
ContrastScore: Towards Higher Quality, Less Biased, More Efficient Evaluation Metrics with Contrastive Evaluation [38.49478115331574]
コントラストスコア(ContrastScore)は、高品質でバイアスの少ない、より効率的なテキスト評価を実現するために設計された、コントラストスコア(ContrastScore)である。実験結果から,ContrastScoreは単一モデルとアンサンブルに基づくベースラインの両方よりも,人間の判断と強い相関性が得られることがわかった。
論文参考訳（メタデータ） (2025-04-02T20:11:45Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。 RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文参考訳（メタデータ） (2024-10-07T16:50:47Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。 FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文参考訳（メタデータ） (2024-04-09T04:17:51Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
BatchEval: Towards Human-like Text Evaluation [12.187982795098623]
BatchEvalは、上記の問題を緩和するために、バッチ単位で反復的に評価するパラダイムである。 BatchEvalはPearson相関で10.5%,APIコストは64%,最先端の手法では10.5%向上している。
論文参考訳（メタデータ） (2023-12-31T09:34:51Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文参考訳（メタデータ） (2023-06-27T06:58:03Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文参考訳（メタデータ） (2021-09-19T19:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。