論文の概要: The Critique of Critique
- arxiv url: http://arxiv.org/abs/2401.04518v1
- Date: Tue, 9 Jan 2024 12:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:46:45.087158
- Title: The Critique of Critique
- Title(参考訳): 批判批判
- Authors: Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei
Liu
- Abstract要約: 我々は,2つの側面から批判を評価する枠組みであるメタクリティーク(MetaCritique)と呼ばれる批判の批判を開拓した。
我々は,4つのタスクに300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判は、より良い洗練につながることを示し、生成的人工知能は、我々のMetaCritiqueで大幅に進歩する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 48.10682790147597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critique, as a natural language description for assessing the quality of
model-generated content, has been proven to play an essential role in the
training, evaluation, and refinement of Large Language Models (LLMs). However,
there is a lack of principled understanding in evaluating the quality of the
critique itself. In this paper, we pioneer the critique of critique, termed
MetaCritique, which is a framework to evaluate the critique from two aspects,
i.e., factuality as precision score and comprehensiveness as recall score. We
calculate the harmonic mean of precision and recall as the overall rating
called F1 score. To obtain a reliable evaluation outcome, we propose Atomic
Information Units (AIUs), which describe the critique in a more fine-grained
manner. MetaCritique takes each AIU into account and aggregates each AIU's
judgment for the overall score. Moreover, given the evaluation process involves
intricate reasoning, our MetaCritique provides a natural language rationale to
support each judgment. We construct a meta-evaluation dataset containing 300
critiques (2653 AIUs) across four tasks (question answering, reasoning,
entailment, and summarization), and we conduct a comparative study to
demonstrate the feasibility and effectiveness. Experiments also show superior
critique judged by MetaCritique leads to better refinement, indicating
generative artificial intelligence indeed has the potential to be significantly
advanced with our MetaCritique. We will release relevant code and
meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
- Abstract(参考訳): モデル生成コンテンツの品質を評価するための自然言語記述としての批判は、大規模言語モデル(llm)の訓練、評価、洗練において重要な役割を果たすことが証明されている。
しかし、批判そのものの質を評価するには原則的な理解が欠如している。
本稿では,二面から批判を評価する枠組みとしてメタ批判(metacritique)と呼ばれる批判の批判,すなわち正確性スコアとしての事実性,リコールスコアとしての包括性,を開拓した。
我々は、F1スコアと呼ばれる総合評価値として、精度とリコールの調和平均を計算する。
信頼性の高い評価結果を得るため,我々はこの批判をよりきめ細かい方法で記述する原子情報単位(aius)を提案する。
MetaCritiqueは各AIUを考慮に入れ、スコアに対するAIUの判断を集約する。
さらに,評価プロセスが複雑な推論を伴うことを前提として,メタクリティークは各判断を支持する自然言語の論理的根拠を提供する。
我々は,4つのタスク(質問応答,推論,エンタテインメント,要約)に300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判がより良い洗練につながることを示し、生成人工知能が我々のMetaCritiqueで大幅に進歩する可能性を示している。
関連するコードとメタ評価データセットをhttps://github.com/GAIR-NLP/MetaCritique.comでリリースします。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。