論文の概要: CLEAR: Error Analysis via LLM-as-a-Judge Made Easy
- arxiv url: http://arxiv.org/abs/2507.18392v1
- Date: Thu, 24 Jul 2025 13:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.723098
- Title: CLEAR: Error Analysis via LLM-as-a-Judge Made Easy
- Title(参考訳): CLEAR: LLM-as-a-Judgeによるエラー解析を容易にする
- Authors: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer,
- Abstract要約: LLMに基づくエラー解析のための対話型オープンソースパッケージであるCLEARを紹介する。
CLEARはまずインスタンスごとのテキストフィードバックを生成し、次に一連のシステムレベルのエラー問題を生成し、それぞれの問題の有効性を定量化する。
当社のパッケージはユーザに対して,集計視覚化による包括的なエラー解析を可能にする,インタラクティブなダッシュボードも提供しています。
- 参考スコア(独自算出の注目度): 9.285203198113917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of Large Language Models (LLMs) increasingly relies on other LLMs acting as judges. However, current evaluation paradigms typically yield a single score or ranking, answering which model is better but not why. While essential for benchmarking, these top-level scores obscure the specific, actionable reasons behind a model's performance. To bridge this gap, we introduce CLEAR, an interactive, open-source package for LLM-based error analysis. CLEAR first generates per-instance textual feedback, then it creates a set of system-level error issues, and quantifies the prevalence of each identified issue. Our package also provides users with an interactive dashboard that allows for a comprehensive error analysis through aggregate visualizations, applies interactive filters to isolate specific issues or score ranges, and drills down to the individual instances that exemplify a particular behavioral pattern. We demonstrate CLEAR analysis for RAG and Math benchmarks, and showcase its utility through a user case study.
- Abstract(参考訳): LLM(Large Language Models)の評価は、審査員として働く他のLLMにますます依存している。
しかしながら、現在の評価パラダイムは通常、1つのスコアまたはランクを獲得し、どのモデルの方がよいが理由ではないかに答える。
ベンチマークには不可欠だが、これらのトップレベルスコアは、モデルのパフォーマンスの背後にある特定の、実行可能な理由を曖昧にしている。
このギャップを埋めるために,LLMに基づくエラー解析のための対話型オープンソースパッケージであるCLEARを導入する。
CLEARはまずインスタンスごとのテキストフィードバックを生成し、次に一連のシステムレベルのエラー問題を生成し、識別された各問題の頻度を定量化する。
我々のパッケージはまた、ユーザに対して、集計視覚化による包括的なエラー分析を可能にするインタラクティブダッシュボードを提供し、特定の問題やスコア範囲を分離するためのインタラクティブフィルタを適用し、特定の行動パターンを例示する個々のインスタンスにドリルダウンする。
本稿では,RAGおよびMathベンチマークのCLEAR解析を実演し,ユーザケーススタディを通じてその実用性を実証する。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Diagnosing Failures in Large Language Models' Answers: Integrating Error Attribution into Evaluation Framework [2.0364208478403554]
詳細な分析を容易にするため、6つのプライマリカテゴリと15のセカンダリカテゴリを備えたミサトリビューションフレームワークを構築した。
本稿では,誤り帰属に特化して設計されたデータセットであるAttriDataについて述べる。
また,AttriData上での微調整モデルであるMisAttributionLLMを提案する。
論文 参考訳(メタデータ) (2025-07-11T10:02:21Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。
LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。
与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T07:46:30Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。