Fugu-MT 論文翻訳(概要): Critique Ability of Large Language Models

論文の概要: Critique Ability of Large Language Models

arxiv url: http://arxiv.org/abs/2310.04815v1
Date: Sat, 7 Oct 2023 14:12:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 15:29:45.013303
Title: Critique Ability of Large Language Models
Title（参考訳）: 大規模言語モデルの批判的能力
Authors: Liangchen Luo, Zi Lin, Yinxiao Liu, Lei Shu, Yun Zhu, Jingbo Shang, Lei Meng
Abstract要約: 本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
参考スコア（独自算出の注目度）: 38.34144195927209
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Critical thinking is essential for rational decision-making and problem-solving. This skill hinges on the ability to provide precise and reasoned critiques and is a hallmark of human intelligence. In the era of large language models (LLMs), this study explores the ability of LLMs to deliver accurate critiques across various tasks. We are interested in this topic as a capable critic model could not only serve as a reliable evaluator, but also as a source of supervised signals for model tuning. Particularly, if a model can self-critique, it has the potential for autonomous self-improvement. To examine this, we introduce a unified evaluation framework for assessing the critique abilities of LLMs. We develop a benchmark called CriticBench, which comprises 3K high-quality natural language queries and corresponding model responses; and annotate the correctness of these responses. The benchmark cover tasks such as math problem-solving, code completion, and question answering. We evaluate multiple LLMs on the collected dataset and our analysis reveals several noteworthy insights: (1) Critique is generally challenging for most LLMs, and this capability often emerges only when models are sufficiently large. (2) In particular, self-critique is especially difficult. Even top-performing LLMs struggle to achieve satisfactory performance. (3) Models tend to have lower critique accuracy on problems where they are most uncertain. To this end, we introduce a simple yet effective baseline named self-check, which leverages self-critique to improve task performance for various models. We hope this study serves as an initial exploration into understanding the critique abilities of LLMs, and aims to inform future research, including the development of more proficient critic models and the application of critiques across diverse tasks.
Abstract（参考訳）: 批判的思考は合理的な意思決定と問題解決に不可欠である。このスキルは、正確で合理的な批評を提供する能力に基づいており、人間の知性の目印となっている。大規模言語モデル (LLM) の時代において, LLM が様々なタスクに対して正確な批評を行う能力について検討した。我々は,有能な批評家モデルとして,信頼性の高い評価者としてだけでなく,モデルチューニングのための教師付き信号の源として,この話題に興味を持っている。特に、モデルが自己批判できるなら、自律的な自己改善の可能性がある。そこで本研究では,LLMの批判的能力を評価するための統一評価フレームワークを提案する。我々は,高品質な自然言語クエリと対応するモデル応答からなるCriticBenchというベンチマークを開発し,これらの応答の正しさを注釈する。ベンチマークは数学の問題解決、コード補完、質問応答などのタスクをカバーする。収集したデータセット上で複数のLCMを評価し,分析によりいくつかの注目すべき洞察が得られた。(1)批判は概してほとんどのLCMにとって困難であり,この能力はモデルが十分に大きい場合にのみ現れる。 2)特に自己批判は困難である。トップパフォーマンスのLLMでさえ、満足なパフォーマンスを達成するのに苦労しています。 (3)モデルが最も不確実な問題に対する批判的精度が低い傾向にある。この目的のために,本研究では,自己批判を利用して各種モデルのタスク性能を向上させる,シンプルで効果的な自己チェックというベースラインを導入する。本研究は, LLMの批判的能力を理解するための最初の研究であり, より熟練した批評家モデルの開発, 様々なタスクに対する批判の応用など, 今後の研究に資することを目的としている。

関連論文リスト

DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
CriticAL: Critic Automation with Language Models [31.1575961776287]
Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
論文参考訳（メタデータ） (2024-11-10T20:41:35Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築 GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-08-29T08:02:09Z)
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文参考訳（メタデータ） (2024-02-22T18:59:02Z)
CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文参考訳（メタデータ） (2024-02-21T12:38:59Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。