論文の概要: A Two-dimensional Zero-shot Dialogue State Tracking Evaluation Method using GPT-4
- arxiv url: http://arxiv.org/abs/2406.11651v1
- Date: Mon, 17 Jun 2024 15:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:03:05.491950
- Title: A Two-dimensional Zero-shot Dialogue State Tracking Evaluation Method using GPT-4
- Title(参考訳): GPT-4を用いた2次元ゼロショット対話状態追跡評価法
- Authors: Ming Gu, Yan Yang,
- Abstract要約: 対話状態追跡(DST)は、大量のラベル付きデータに依存し、意味的一貫性を無視する正確なマッチング手法によって評価される。
GPT-4を用いたDSTの2次元ゼロショット評価法を提案する。
- 参考スコア(独自算出の注目度): 5.042738414157664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue state tracking (DST) is evaluated by exact matching methods, which rely on large amounts of labeled data and ignore semantic consistency, leading to over-evaluation. Currently, leveraging large language models (LLM) in evaluating natural language processing tasks has achieved promising results. However, using LLM for DST evaluation is still under explored. In this paper, we propose a two-dimensional zero-shot evaluation method for DST using GPT-4, which divides the evaluation into two dimensions: accuracy and completeness. Furthermore, we also design two manual reasoning paths in prompting to further improve the accuracy of evaluation. Experimental results show that our method achieves better performance compared to the baselines, and is consistent with traditional exact matching based methods.
- Abstract(参考訳): 対話状態追跡(DST)は、大量のラベル付きデータに依存し、セマンティック一貫性を無視した正確なマッチング手法によって評価される。
現在、自然言語処理タスクの評価における大規模言語モデル(LLM)の利用は、有望な成果を上げている。
しかし、DST評価にLLMを用いる方法はまだ検討中である。
本稿では,GPT-4を用いたDSTの2次元ゼロショット評価法を提案する。
さらに、評価の精度をさらに向上させるために、2つの手動推論経路を設計する。
実験結果から,本手法はベースラインよりも優れた性能を示し,従来のマッチング手法と一致していることがわかった。
関連論文リスト
- PRePair: Pointwise Reasoning Enhance Pairwise Evaluating for Robust Instruction-Following Assessments [32.54783419675456]
我々は、望ましくない好みに対して、ポイントワイズ評価がより堅牢性を示すことを示した。
本稿では,一対評価にポイントワイド推論を統合するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation [93.55550787058012]
本稿では,テキスト・ツー・3次元生成モデルのための自動的,汎用的,人為的アライメント評価指標を提案する。
この目的のために,まずGPT-4Vを用いたプロンプト生成装置を開発し,評価プロンプトを生成する。
次に,ユーザ定義基準に従って2つの3Dアセットを比較することをGPT-4Vに指示する手法を設計する。
論文 参考訳(メタデータ) (2024-01-08T18:52:09Z) - BatchEval: Towards Human-like Text Evaluation [12.187982795098623]
BatchEvalは、上記の問題を緩和するために、バッチ単位で反復的に評価するパラダイムである。
BatchEvalはPearson相関で10.5%,APIコストは64%,最先端の手法では10.5%向上している。
論文 参考訳(メタデータ) (2023-12-31T09:34:51Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。