論文の概要: Critique Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2310.04815v1
- Date: Sat, 7 Oct 2023 14:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:29:45.013303
- Title: Critique Ability of Large Language Models
- Title(参考訳): 大規模言語モデルの批判的能力
- Authors: Liangchen Luo, Zi Lin, Yinxiao Liu, Lei Shu, Yun Zhu, Jingbo Shang,
Lei Meng
- Abstract要約: 本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
- 参考スコア(独自算出の注目度): 38.34144195927209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical thinking is essential for rational decision-making and
problem-solving. This skill hinges on the ability to provide precise and
reasoned critiques and is a hallmark of human intelligence. In the era of large
language models (LLMs), this study explores the ability of LLMs to deliver
accurate critiques across various tasks. We are interested in this topic as a
capable critic model could not only serve as a reliable evaluator, but also as
a source of supervised signals for model tuning. Particularly, if a model can
self-critique, it has the potential for autonomous self-improvement. To examine
this, we introduce a unified evaluation framework for assessing the critique
abilities of LLMs. We develop a benchmark called CriticBench, which comprises
3K high-quality natural language queries and corresponding model responses; and
annotate the correctness of these responses. The benchmark cover tasks such as
math problem-solving, code completion, and question answering. We evaluate
multiple LLMs on the collected dataset and our analysis reveals several
noteworthy insights: (1) Critique is generally challenging for most LLMs, and
this capability often emerges only when models are sufficiently large. (2) In
particular, self-critique is especially difficult. Even top-performing LLMs
struggle to achieve satisfactory performance. (3) Models tend to have lower
critique accuracy on problems where they are most uncertain. To this end, we
introduce a simple yet effective baseline named self-check, which leverages
self-critique to improve task performance for various models. We hope this
study serves as an initial exploration into understanding the critique
abilities of LLMs, and aims to inform future research, including the
development of more proficient critic models and the application of critiques
across diverse tasks.
- Abstract(参考訳): 批判的思考は合理的な意思決定と問題解決に不可欠である。
このスキルは、正確で合理的な批評を提供する能力に基づいており、人間の知性の目印となっている。
大規模言語モデル (LLM) の時代において, LLM が様々なタスクに対して正確な批評を行う能力について検討した。
我々は,有能な批評家モデルとして,信頼性の高い評価者としてだけでなく,モデルチューニングのための教師付き信号の源として,この話題に興味を持っている。
特に、モデルが自己批判できるなら、自律的な自己改善の可能性がある。
そこで本研究では,LLMの批判的能力を評価するための統一評価フレームワークを提案する。
我々は,高品質な自然言語クエリと対応するモデル応答からなるCriticBenchというベンチマークを開発し,これらの応答の正しさを注釈する。
ベンチマークは数学の問題解決、コード補完、質問応答などのタスクをカバーする。
収集したデータセット上で複数のLCMを評価し,分析によりいくつかの注目すべき洞察が得られた。(1)批判は概してほとんどのLCMにとって困難であり,この能力はモデルが十分に大きい場合にのみ現れる。
2)特に自己批判は困難である。
トップパフォーマンスのLLMでさえ、満足なパフォーマンスを達成するのに苦労しています。
(3)モデルが最も不確実な問題に対する批判的精度が低い傾向にある。
この目的のために,本研究では,自己批判を利用して各種モデルのタスク性能を向上させる,シンプルで効果的な自己チェックというベースラインを導入する。
本研究は, LLMの批判的能力を理解するための最初の研究であり, より熟練した批評家モデルの開発, 様々なタスクに対する批判の応用など, 今後の研究に資することを目的としている。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - CriticAL: Critic Automation with Language Models [31.1575961776287]
Criticalは、モデル予測とデータ間の不一致をキャプチャする要約統計を生成する。
批評家は、誤った批判を幻覚させることなく確実に正しい批評を生成する。
論文 参考訳(メタデータ) (2024-11-10T20:41:35Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。