論文の概要: CriticBench: Evaluating Large Language Models as Critic
- arxiv url: http://arxiv.org/abs/2402.13764v1
- Date: Wed, 21 Feb 2024 12:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:34:38.475440
- Title: CriticBench: Evaluating Large Language Models as Critic
- Title(参考訳): CriticBench: 大規模言語モデルを批判として評価する
- Authors: Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen,
Xian-ling Mao
- Abstract要約: 本稿では,Large Language Models (LLMs) の4つの重要な批判能力次元を包括的かつ確実に評価する新しいベンチマークである shortname を紹介する。
shortnameenは9つの異なるタスクを比較し、それぞれがLLMの応答を様々なレベルの品質の粒度で批判する能力を評価する。
オープンソース LLM とクローズドソース LLM の広範な評価により,批判能力と課題,応答品質,モデルスケールの興味深い関係が明らかとなった。
- 参考スコア(独自算出の注目度): 115.8286183749499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critique ability are crucial in the scalable oversight and self-improvement
of Large Language Models (LLMs). While many recent studies explore the critique
ability of LLMs to judge and refine flaws in generations, how to
comprehensively and reliably measure the critique abilities of LLMs is
under-explored. This paper introduces \shortname, a novel benchmark designed to
comprehensively and reliably evaluate four key critique ability dimensions of
LLMs: feedback, comparison, refinement and meta-feedback.
\shortname~encompasses nine diverse tasks, each assessing the LLMs' ability to
critique responses at varying levels of quality granularity. Our extensive
evaluations of open-source and closed-source LLMs reveal intriguing
relationships between the critique ability and tasks, response qualities, and
model scales. Datasets, resources and evaluation toolkit for \shortname~will be
publicly released at \url{https://github.com/gmftbyGMFTBY/CriticBench}.
- Abstract(参考訳): 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。
近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。
本稿では,LLMの4つの重要な批判能力(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるShortnameを紹介する。
\shortname~は9つの異なるタスクを包含し、それぞれが品質の粒度の異なるレベルで応答を批判するllmの能力を評価する。
オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。
datasets, resources and evaluation toolkit for \shortname~は \url{https://github.com/gmftbygmftby/criticbench} で公開される。
関連論文リスト
- Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-09T12:20:41Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。