論文の概要: The Critique of Critique
- arxiv url: http://arxiv.org/abs/2401.04518v1
- Date: Tue, 9 Jan 2024 12:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:46:45.087158
- Title: The Critique of Critique
- Title(参考訳): 批判批判
- Authors: Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei
Liu
- Abstract要約: 我々は,2つの側面から批判を評価する枠組みであるメタクリティーク(MetaCritique)と呼ばれる批判の批判を開拓した。
我々は,4つのタスクに300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判は、より良い洗練につながることを示し、生成的人工知能は、我々のMetaCritiqueで大幅に進歩する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 48.10682790147597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critique, as a natural language description for assessing the quality of
model-generated content, has been proven to play an essential role in the
training, evaluation, and refinement of Large Language Models (LLMs). However,
there is a lack of principled understanding in evaluating the quality of the
critique itself. In this paper, we pioneer the critique of critique, termed
MetaCritique, which is a framework to evaluate the critique from two aspects,
i.e., factuality as precision score and comprehensiveness as recall score. We
calculate the harmonic mean of precision and recall as the overall rating
called F1 score. To obtain a reliable evaluation outcome, we propose Atomic
Information Units (AIUs), which describe the critique in a more fine-grained
manner. MetaCritique takes each AIU into account and aggregates each AIU's
judgment for the overall score. Moreover, given the evaluation process involves
intricate reasoning, our MetaCritique provides a natural language rationale to
support each judgment. We construct a meta-evaluation dataset containing 300
critiques (2653 AIUs) across four tasks (question answering, reasoning,
entailment, and summarization), and we conduct a comparative study to
demonstrate the feasibility and effectiveness. Experiments also show superior
critique judged by MetaCritique leads to better refinement, indicating
generative artificial intelligence indeed has the potential to be significantly
advanced with our MetaCritique. We will release relevant code and
meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
- Abstract(参考訳): モデル生成コンテンツの品質を評価するための自然言語記述としての批判は、大規模言語モデル(llm)の訓練、評価、洗練において重要な役割を果たすことが証明されている。
しかし、批判そのものの質を評価するには原則的な理解が欠如している。
本稿では,二面から批判を評価する枠組みとしてメタ批判(metacritique)と呼ばれる批判の批判,すなわち正確性スコアとしての事実性,リコールスコアとしての包括性,を開拓した。
我々は、F1スコアと呼ばれる総合評価値として、精度とリコールの調和平均を計算する。
信頼性の高い評価結果を得るため,我々はこの批判をよりきめ細かい方法で記述する原子情報単位(aius)を提案する。
MetaCritiqueは各AIUを考慮に入れ、スコアに対するAIUの判断を集約する。
さらに,評価プロセスが複雑な推論を伴うことを前提として,メタクリティークは各判断を支持する自然言語の論理的根拠を提供する。
我々は,4つのタスク(質問応答,推論,エンタテインメント,要約)に300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。
また、MetaCritiqueによって判断される優れた批判がより良い洗練につながることを示し、生成人工知能が我々のMetaCritiqueで大幅に進歩する可能性を示している。
関連するコードとメタ評価データセットをhttps://github.com/GAIR-NLP/MetaCritique.comでリリースします。
関連論文リスト
- CriticBench: Evaluating Large Language Models as Critic [115.8286183749499]
CriticBenchは、大規模言語モデル(LLM)の4つの重要な批判能力次元を包括的かつ確実に評価するために設計された新しいベンチマークである。
CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。
オープンソース LLM とクローズドソース LLM の広範な評価により,批判能力と課題,応答品質,モデルスケールの興味深い関係が明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [78.18992019606533]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、21のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見する。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。