Fugu-MT 論文翻訳(概要): The Critique of Critique

論文の概要: The Critique of Critique

arxiv url: http://arxiv.org/abs/2401.04518v1
Date: Tue, 9 Jan 2024 12:20:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:46:45.087158
Title: The Critique of Critique
Title（参考訳）: 批判批判
Authors: Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei Liu
Abstract要約: 我々は,2つの側面から批判を評価する枠組みであるメタクリティーク(MetaCritique)と呼ばれる批判の批判を開拓した。我々は,4つのタスクに300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。また、MetaCritiqueによって判断される優れた批判は、より良い洗練につながることを示し、生成的人工知能は、我々のMetaCritiqueで大幅に進歩する可能性があることを示唆している。
参考スコア（独自算出の注目度）: 48.10682790147597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Critique, as a natural language description for assessing the quality of model-generated content, has been proven to play an essential role in the training, evaluation, and refinement of Large Language Models (LLMs). However, there is a lack of principled understanding in evaluating the quality of the critique itself. In this paper, we pioneer the critique of critique, termed MetaCritique, which is a framework to evaluate the critique from two aspects, i.e., factuality as precision score and comprehensiveness as recall score. We calculate the harmonic mean of precision and recall as the overall rating called F1 score. To obtain a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique takes each AIU into account and aggregates each AIU's judgment for the overall score. Moreover, given the evaluation process involves intricate reasoning, our MetaCritique provides a natural language rationale to support each judgment. We construct a meta-evaluation dataset containing 300 critiques (2653 AIUs) across four tasks (question answering, reasoning, entailment, and summarization), and we conduct a comparative study to demonstrate the feasibility and effectiveness. Experiments also show superior critique judged by MetaCritique leads to better refinement, indicating generative artificial intelligence indeed has the potential to be significantly advanced with our MetaCritique. We will release relevant code and meta-evaluation datasets at https://github.com/GAIR-NLP/MetaCritique.
Abstract（参考訳）: モデル生成コンテンツの品質を評価するための自然言語記述としての批判は、大規模言語モデル(llm)の訓練、評価、洗練において重要な役割を果たすことが証明されている。しかし、批判そのものの質を評価するには原則的な理解が欠如している。本稿では,二面から批判を評価する枠組みとしてメタ批判(metacritique)と呼ばれる批判の批判,すなわち正確性スコアとしての事実性,リコールスコアとしての包括性,を開拓した。我々は、F1スコアと呼ばれる総合評価値として、精度とリコールの調和平均を計算する。信頼性の高い評価結果を得るため,我々はこの批判をよりきめ細かい方法で記述する原子情報単位(aius)を提案する。 MetaCritiqueは各AIUを考慮に入れ、スコアに対するAIUの判断を集約する。さらに,評価プロセスが複雑な推論を伴うことを前提として,メタクリティークは各判断を支持する自然言語の論理的根拠を提供する。我々は,4つのタスク(質問応答,推論,エンタテインメント,要約)に300の批判(2653 AIU)を含むメタ評価データセットを構築し,その実現可能性と有効性を示すために比較研究を行った。また、MetaCritiqueによって判断される優れた批判がより良い洗練につながることを示し、生成人工知能が我々のMetaCritiqueで大幅に進歩する可能性を示している。関連するコードとメタ評価データセットをhttps://github.com/GAIR-NLP/MetaCritique.comでリリースします。

関連論文リスト

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
CriticAL: Critic Automation with Language Models [31.1575961776287]
Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
論文参考訳（メタデータ） (2024-11-10T20:41:35Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (2024-05-02T17:59:35Z)
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文参考訳（メタデータ） (2024-02-22T18:59:02Z)
CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文参考訳（メタデータ） (2024-02-21T12:38:59Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文参考訳（メタデータ） (2023-10-07T14:12:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。