論文の概要: SocREval: Large Language Models with the Socratic Method for
Reference-Free Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2310.00074v1
- Date: Fri, 29 Sep 2023 18:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:53:40.841750
- Title: SocREval: Large Language Models with the Socratic Method for
Reference-Free Reasoning Evaluation
- Title(参考訳): SocREval: 参照レス推論評価のためのソクラティック手法による大規模言語モデル
- Authors: Hangfeng He, Hongming Zhang, Dan Roth
- Abstract要約: 既存の基準に基づく評価指標は、モデル由来の連鎖を評価するために人間の注釈付き推論チェーンに依存している。
我々は,人為的参照の必要性を回避し,推論チェーンの品質を自動評価するGPT-4を提案する。
SocREval は GPT-4 の性能を大幅に改善し,既存の参照フリーおよび参照ベース推論評価指標を抜いた。
- 参考スコア(独自算出の注目度): 87.92401904152179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To comprehensively assess the capacity of current models for complex
reasoning, it is crucial to assess their step-by-step reasoning in a scalable
manner. Established reference-based evaluation metrics rely on human-annotated
reasoning chains to assess the model-derived chains. However, such
``gold-standard'' human-written reasoning chains may not be unique and their
acquisition is often labor-intensive. Existing reference-free reasoning metrics
eliminate the need for human-crafted reasoning chains as references, but they
typically require fine-tuning on datasets with human-derived reasoning chains,
which complicates the process and raises concerns regarding generalizability
across diverse datasets. To address these challenges, we harness GPT-4 to
automatically evaluate reasoning chain quality, obviating the need for
human-crafted references. Leveraging the Socratic method, we devise tailored
prompts to enhance reference-free reasoning evaluation, which we term SocREval
(Socratic method for Reasoning Evaluation). Empirical results from four human
annotated datasets reveal that SocREval significantly improves GPT-4's
performance, surpassing existing reference-free and reference-based reasoning
evaluation metrics. Beyond its demonstrated efficacy, our proposed framework,
large language models (LLMs) with the Socratic method, proves to be both
cost-efficient and robust to prompt writing and example selection, as
substantiated by our in-depth analysis.
- Abstract(参考訳): 複雑な推論のための現在のモデルのキャパシティを包括的に評価するには,そのステップバイステップ推論をスケーラブルに評価することが重要である。
確立された参照ベースの評価指標は、モデルから派生した連鎖を評価するために人間の注釈付き推論チェーンに依存する。
しかし、そのような「ゴールドスタンダード」の人間による推論連鎖はユニークではなく、その買収はしばしば労働集約的である。
既存の参照フリー推論メトリクスは、人造推論チェーンを参照として必要としないが、通常、人間由来の推論チェーンを持つデータセットを微調整する必要がある。
これらの課題に対処するため,我々はGPT-4を用いて推論の連鎖品質を自動評価し,人為的参照の必要性を回避した。
ソクラテス法を利用して,ソクラテス法(ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラシー法)と呼ばれる,参照のない推論評価を強化するためのプロンプトを考案した。
4つのアノテートデータセットによる実験結果から、SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っていることが明らかになった。
提案するフレームワークである, socratic 法を用いた大規模言語モデル (llms) は, 提案手法の有効性に加えて, コスト効率が向上し, 文章作成とサンプル選択が容易であることが証明された。
関連論文リスト
- Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Realistic Evaluation Principles for Cross-document Coreference
Resolution [19.95214898312209]
我々は、モデルが標準ECB+データセットの合成トピック構造を利用するべきではないと主張している。
私たちは、より現実的な評価原則が競争モデルに与える影響を実証的に示します。
論文 参考訳(メタデータ) (2021-06-08T09:05:21Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。