論文の概要: The Critique of Critique
- arxiv url: http://arxiv.org/abs/2401.04518v1
- Date: Tue, 9 Jan 2024 12:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:46:45.087158
- Title: The Critique of Critique
- Title(参考訳): 批判批判
- Authors: Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei
Liu
- Abstract要約: 我々は,2つの側面から批判を評価する枠組みであるメタクリティーク(MetaCritique)と呼ばれる批判の批判を開拓した。
我々は,4つのタスクに300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判は、より良い洗練につながることを示し、生成的人工知能は、我々のMetaCritiqueで大幅に進歩する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 48.10682790147597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critique, as a natural language description for assessing the quality of
model-generated content, has been proven to play an essential role in the
training, evaluation, and refinement of Large Language Models (LLMs). However,
there is a lack of principled understanding in evaluating the quality of the
critique itself. In this paper, we pioneer the critique of critique, termed
MetaCritique, which is a framework to evaluate the critique from two aspects,
i.e., factuality as precision score and comprehensiveness as recall score. We
calculate the harmonic mean of precision and recall as the overall rating
called F1 score. To obtain a reliable evaluation outcome, we propose Atomic
Information Units (AIUs), which describe the critique in a more fine-grained
manner. MetaCritique takes each AIU into account and aggregates each AIU's
judgment for the overall score. Moreover, given the evaluation process involves
intricate reasoning, our MetaCritique provides a natural language rationale to
support each judgment. We construct a meta-evaluation dataset containing 300
critiques (2653 AIUs) across four tasks (question answering, reasoning,
entailment, and summarization), and we conduct a comparative study to
demonstrate the feasibility and effectiveness. Experiments also show superior
critique judged by MetaCritique leads to better refinement, indicating
generative artificial intelligence indeed has the potential to be significantly
advanced with our MetaCritique. We will release relevant code and
meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
- Abstract(参考訳): モデル生成コンテンツの品質を評価するための自然言語記述としての批判は、大規模言語モデル(llm)の訓練、評価、洗練において重要な役割を果たすことが証明されている。
しかし、批判そのものの質を評価するには原則的な理解が欠如している。
本稿では,二面から批判を評価する枠組みとしてメタ批判(metacritique)と呼ばれる批判の批判,すなわち正確性スコアとしての事実性,リコールスコアとしての包括性,を開拓した。
我々は、F1スコアと呼ばれる総合評価値として、精度とリコールの調和平均を計算する。
信頼性の高い評価結果を得るため,我々はこの批判をよりきめ細かい方法で記述する原子情報単位(aius)を提案する。
MetaCritiqueは各AIUを考慮に入れ、スコアに対するAIUの判断を集約する。
さらに,評価プロセスが複雑な推論を伴うことを前提として,メタクリティークは各判断を支持する自然言語の論理的根拠を提供する。
我々は,4つのタスク(質問応答,推論,エンタテインメント,要約)に300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判がより良い洗練につながることを示し、生成人工知能が我々のMetaCritiqueで大幅に進歩する可能性を示している。
関連するコードとメタ評価データセットをhttps://github.com/GAIR-NLP/MetaCritique.comでリリースします。
関連論文リスト
- CriticAL: Critic Automation with Language Models [31.1575961776287]
Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。
批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
論文 参考訳(メタデータ) (2024-11-10T20:41:35Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。