論文の概要: CriticEval: Evaluating Large Language Model as Critic
- arxiv url: http://arxiv.org/abs/2402.13764v5
- Date: Sun, 20 Oct 2024 05:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:09.712982
- Title: CriticEval: Evaluating Large Language Model as Critic
- Title(参考訳): CriticEval: 大規模言語モデルを批判として評価する
- Authors: Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao,
- Abstract要約: CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
- 参考スコア(独自算出の注目度): 110.29766259843453
- License:
- Abstract: Critique ability, i.e., the capability of Large Language Models (LLMs) to identify and rectify flaws in responses, is crucial for their applications in self-improvement and scalable oversight. While numerous studies have been proposed to evaluate critique ability of LLMs, their comprehensiveness and reliability are still limited. To overcome this problem, we introduce CriticEval, a novel benchmark designed to comprehensively and reliably evaluate critique ability of LLMs. Specifically, to ensure the comprehensiveness, CriticEval evaluates critique ability from four dimensions across nine diverse task scenarios. It evaluates both scalar-valued and textual critiques, targeting responses of varying quality. To ensure the reliability, a large number of critiques are annotated to serve as references, enabling GPT-4 to evaluate textual critiques reliably. Extensive evaluations of open-source and closed-source LLMs first validate the reliability of evaluation in CriticEval. Then, experimental results demonstrate the promising potential of open-source LLMs, the effectiveness of critique datasets and several intriguing relationships between the critique ability and some critical factors, including task types, response qualities and critique dimensions.
- Abstract(参考訳): 大規模言語モデル(LLM)が応答の欠陥を特定し、修正する能力である批判能力は、自己改善とスケーラブルな監視において、彼らのアプリケーションにとって不可欠である。
LLMの批判的能力を評価するために多くの研究が提案されているが、その包括性と信頼性はまだ限られている。
この問題を解決するために,LLMの批判能力を包括的かつ確実に評価する新しいベンチマークであるCryticEvalを紹介する。
具体的には、包括性を確保するために、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
それはスカラー評価とテキスト批評の両方を評価し、様々な品質の反応を標的にしている。
信頼性を確保するため、多数の批評が注釈付けされて参照として機能し、GPT-4はテキストの批評を確実に評価することができる。
オープンソースおよびクローズドソースLCMの広範囲な評価は、まずCriticEvalの評価の信頼性を検証した。
そして、実験結果から、オープンソースのLCMの有望な可能性、批判データセットの有効性、そして、批判能力と、タスクタイプ、応答品質、批判次元を含むいくつかの重要な要因の間の興味深い関係を実証した。
関連論文リスト
- Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-09T12:20:41Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。