Fugu-MT 論文翻訳(概要): CriticBench: Evaluating Large Language Models as Critic

論文の概要: CriticBench: Evaluating Large Language Models as Critic

arxiv url: http://arxiv.org/abs/2402.13764v3
Date: Fri, 23 Feb 2024 02:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 11:53:12.864863
Title: CriticBench: Evaluating Large Language Models as Critic
Title（参考訳）: CriticBench: 大規模言語モデルを批判として評価する
Authors: Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao
Abstract要約: CriticBenchは、大規模言語モデル(LLM)の4つの重要な批判能力次元を包括的かつ確実に評価するために設計された新しいベンチマークである。 CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。オープンソース LLM とクローズドソース LLM の広範な評価により,批判能力と課題,応答品質,モデルスケールの興味深い関係が明らかとなった。
参考スコア（独自算出の注目度）: 115.8286183749499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Critique ability are crucial in the scalable oversight and self-improvement of Large Language Models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations, how to comprehensively and reliably measure the critique abilities of LLMs is under-explored. This paper introduces CriticBench, a novel benchmark designed to comprehensively and reliably evaluate four key critique ability dimensions of LLMs: feedback, comparison, refinement and meta-feedback. CriticBench encompasses nine diverse tasks, each assessing the LLMs' ability to critique responses at varying levels of quality granularity. Our extensive evaluations of open-source and closed-source LLMs reveal intriguing relationships between the critique ability and tasks, response qualities, and model scales. Datasets, resources and evaluation toolkit for CriticBench will be publicly released at https://github.com/open-compass/CriticBench.
Abstract（参考訳）: 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。本稿では,LLMの4つの重要な批判能力次元(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるCryticBenchを紹介する。 CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。 CriticBenchのデータセット、リソース、評価ツールキットはhttps://github.com/open-compass/CriticBenchで公開される。

関連論文リスト

An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability [2.8948274245812327]
評価における評価設計,復号化戦略, CoT (Chain-of-Tought) 推論の効果について検討した。その結果,評価基準は信頼性に重要であり,非決定的サンプリングは決定論的評価よりも人間の嗜好との整合性を向上し,CoT推論は明確な評価基準が存在する場合の利得を最小化することがわかった。
論文参考訳（メタデータ） (2025-06-16T16:04:43Z)
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。 VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。 LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文参考訳（メタデータ） (2024-12-03T05:04:49Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築 GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-08-29T08:02:09Z)
A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文参考訳（メタデータ） (2024-07-04T17:15:37Z)
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文参考訳（メタデータ） (2024-02-22T18:59:02Z)
The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2024-01-09T12:20:41Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文参考訳（メタデータ） (2023-10-07T14:12:15Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。