論文の概要: The Critique of Critique
- arxiv url: http://arxiv.org/abs/2401.04518v2
- Date: Sat, 1 Jun 2024 17:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 19:42:23.658489
- Title: The Critique of Critique
- Title(参考訳): 批判批判
- Authors: Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei Liu,
- Abstract要約: 私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。
メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
- 参考スコア(独自算出の注目度): 45.40025444461465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critique, as a natural language description for assessing the quality of model-generated content, has played a vital role in the training, evaluation, and refinement of LLMs. However, a systematic method to evaluate the quality of critique is lacking. In this paper, we pioneer the critique of critique, termed MetaCritique, which builds specific quantification criteria. To achieve a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique aggregates each AIU's judgment for the overall score. Moreover, MetaCritique delivers a natural language rationale for the intricate reasoning within each judgment. Lastly, we construct a meta-evaluation dataset covering 4 tasks across 16 public datasets involving human-written and LLM-generated critiques. Experiments demonstrate that MetaCritique can achieve near-human performance. Our study can facilitate future research in LLM critiques based on our following observations and released resources: (1) superior critiques judged by MetaCritique can lead to better refinements, indicating that it can potentially enhance the alignment of existing LLMs; (2) the leaderboard of critique models reveals that open-source critique models commonly suffer from factuality issues; (3) relevant code and data are publicly available at https://github.com/GAIR-NLP/MetaCritique to support deeper exploration; (4) an API at PyPI with the usage documentation in Appendix C allows users to assess the critique conveniently.
- Abstract(参考訳): 批判は、モデル生成コンテンツの質を評価するための自然言語記述として、LLMの訓練、評価、洗練において重要な役割を担っている。
しかし、批判の質を評価する体系的な方法が欠落している。
本稿では,特定の定量化基準を構築するメタクリティカルと呼ばれる批判の批判の先駆者となる。
信頼性の高い評価結果を得るために,よりきめ細かな批判を記述した原子情報ユニット(AIU)を提案する。
MetaCritiqueは、スコア全体のAIUの判断を集約する。
さらに、MetaCritiqueは、各判断における複雑な推論のための自然言語の理論的根拠を提供する。
最後に,16の公開データセットを対象とした4つのタスクを対象としたメタ評価データセットを構築した。
実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
本稿では,(1)メタクリティークが判断した優れた批判は,既存のLCMの整合性を高める可能性を示唆する,(2)オープンソース批判モデルのリーダーボードは,事実性の問題に一般的に悩まされていること,(3)関連するコードとデータはhttps://github.com/GAIR-NLP/MetaCritiqueで公開されており,(4)PyPIのAPIとAppendix Cのドキュメントにより,利用者による評価を便利に行うことができる。
関連論文リスト
- CriticAL: Critic Automation with Language Models [31.1575961776287]
Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。
批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
論文 参考訳(メタデータ) (2024-11-10T20:41:35Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。
ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。
4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文 参考訳(メタデータ) (2024-05-02T17:59:35Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。