Fugu-MT 論文翻訳(概要): SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation

論文の概要: SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation

arxiv url: http://arxiv.org/abs/2310.00074v1
Date: Fri, 29 Sep 2023 18:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 06:53:40.841750
Title: SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation
Title（参考訳）: SocREval: 参照レス推論評価のためのソクラティック手法による大規模言語モデル
Authors: Hangfeng He, Hongming Zhang, Dan Roth
Abstract要約: 既存の基準に基づく評価指標は、モデル由来の連鎖を評価するために人間の注釈付き推論チェーンに依存している。我々は,人為的参照の必要性を回避し,推論チェーンの品質を自動評価するGPT-4を提案する。 SocREval は GPT-4 の性能を大幅に改善し,既存の参照フリーおよび参照ベース推論評価指標を抜いた。
参考スコア（独自算出の注目度）: 87.92401904152179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To comprehensively assess the capacity of current models for complex reasoning, it is crucial to assess their step-by-step reasoning in a scalable manner. Established reference-based evaluation metrics rely on human-annotated reasoning chains to assess the model-derived chains. However, such ``gold-standard'' human-written reasoning chains may not be unique and their acquisition is often labor-intensive. Existing reference-free reasoning metrics eliminate the need for human-crafted reasoning chains as references, but they typically require fine-tuning on datasets with human-derived reasoning chains, which complicates the process and raises concerns regarding generalizability across diverse datasets. To address these challenges, we harness GPT-4 to automatically evaluate reasoning chain quality, obviating the need for human-crafted references. Leveraging the Socratic method, we devise tailored prompts to enhance reference-free reasoning evaluation, which we term SocREval (Socratic method for Reasoning Evaluation). Empirical results from four human annotated datasets reveal that SocREval significantly improves GPT-4's performance, surpassing existing reference-free and reference-based reasoning evaluation metrics. Beyond its demonstrated efficacy, our proposed framework, large language models (LLMs) with the Socratic method, proves to be both cost-efficient and robust to prompt writing and example selection, as substantiated by our in-depth analysis.
Abstract（参考訳）: 複雑な推論のための現在のモデルのキャパシティを包括的に評価するには,そのステップバイステップ推論をスケーラブルに評価することが重要である。確立された参照ベースの評価指標は、モデルから派生した連鎖を評価するために人間の注釈付き推論チェーンに依存する。しかし、そのような「ゴールドスタンダード」の人間による推論連鎖はユニークではなく、その買収はしばしば労働集約的である。既存の参照フリー推論メトリクスは、人造推論チェーンを参照として必要としないが、通常、人間由来の推論チェーンを持つデータセットを微調整する必要がある。これらの課題に対処するため,我々はGPT-4を用いて推論の連鎖品質を自動評価し,人為的参照の必要性を回避した。ソクラテス法を利用して,ソクラテス法(ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラシー法)と呼ばれる,参照のない推論評価を強化するためのプロンプトを考案した。 4つのアノテートデータセットによる実験結果から、SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っていることが明らかになった。提案するフレームワークである, socratic 法を用いた大規模言語モデル (llms) は, 提案手法の有効性に加えて, コスト効率が向上し, 文章作成とサンプル選択が容易であることが証明された。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。 REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文参考訳（メタデータ） (2023-04-04T15:57:28Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Realistic Evaluation Principles for Cross-document Coreference Resolution [19.95214898312209]
我々は、モデルが標準ECB+データセットの合成トピック構造を利用するべきではないと主張している。私たちは、より現実的な評価原則が競争モデルに与える影響を実証的に示します。
論文参考訳（メタデータ） (2021-06-08T09:05:21Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)
Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文参考訳（メタデータ） (2020-02-18T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。