論文の概要: CriticBench: Evaluating Large Language Models as Critic
- arxiv url: http://arxiv.org/abs/2402.13764v2
- Date: Thu, 22 Feb 2024 02:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 11:45:07.608015
- Title: CriticBench: Evaluating Large Language Models as Critic
- Title(参考訳): CriticBench: 大規模言語モデルを批判として評価する
- Authors: Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen,
Xian-ling Mao
- Abstract要約: CriticBenchは、大規模言語モデルの4つの重要な批判能力次元を包括的かつ確実に評価するように設計された、新しいベンチマークである。
オープンソース LLM とクローズドソース LLM の評価は,批判能力と課題,応答品質,モデルスケールの興味深い関係を明らかにする。
- 参考スコア(独自算出の注目度): 115.8286183749499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critique ability are crucial in the scalable oversight and self-improvement
of Large Language Models (LLMs). While many recent studies explore the critique
ability of LLMs to judge and refine flaws in generations, how to
comprehensively and reliably measure the critique abilities of LLMs is
under-explored. This paper introduces \shortname, a novel benchmark designed to
comprehensively and reliably evaluate four key critique ability dimensions of
LLMs: feedback, comparison, refinement and meta-feedback. CriticBench
encompasses nine diverse tasks, each assessing the LLMs' ability to critique
responses at varying levels of quality granularity. Our extensive evaluations
of open-source and closed-source LLMs reveal intriguing relationships between
the critique ability and tasks, response qualities, and model scales. Datasets,
resources and evaluation toolkit for CriticBench will be publicly released at
\url{https://github.com/open-compass/CriticBench}.
- Abstract(参考訳): 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。
近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。
本稿では,LLMの4つの重要な批判能力(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるShortnameを紹介する。
CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。
オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。
CriticBenchのデータセット、リソース、評価ツールキットは、 \url{https://github.com/open-compass/CriticBench}で公開される。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-09T12:20:41Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。