論文の概要: Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence
- arxiv url: http://arxiv.org/abs/2402.10175v2
- Date: Tue, 2 Apr 2024 21:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:08:00.180536
- Title: Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence
- Title(参考訳): アンロック構造測定:位置談話コヒーレンスの自動計測装置PDDの導入
- Authors: Yinhong Liu, Yixuan Su, Ehsan Shareghi, Nigel Collier,
- Abstract要約: 本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
- 参考スコア(独自算出の注目度): 39.065349875944634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have shown remarkable performance in aligning generated text with user intentions across various tasks. When it comes to long-form text generation, there has been a growing interest in generation from a discourse coherence perspective. However, existing lexical or semantic metrics such as BLEU, ROUGE, BertScore cannot effectively capture the discourse coherence. The development of discourse-specific automatic evaluation methods for assessing the output of LLMs warrants greater focus and exploration. In this paper, we present a novel automatic metric designed to quantify the discourse divergence between two long-form articles. Extensive experiments on three datasets from representative domains demonstrate that our metric aligns more closely with human preferences and GPT-4 coherence evaluation, outperforming existing evaluation methods.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は, 様々なタスクにまたがって生成したテキストとユーザの意図を一致させることで, 顕著な性能を示した。
長文テキスト生成に関しては、談話コヒーレンスの観点からの生成への関心が高まっている。
しかし、BLEU、ROUGE、BertScoreのような既存の語彙や意味のメトリクスでは、談話の一貫性を効果的に捉えることはできない。
LLMのアウトプットを評価するための談話固有の自動評価手法の開発により、より焦点と探索が保証される。
本稿では,2つの長文間の談話のばらつきを定量化する新しい自動測度を提案する。
代表領域からの3つのデータセットに対する大規模な実験により、我々の測定値が人間の嗜好やGPT-4コヒーレンス評価とより密接に一致していることが示され、既存の評価方法よりも優れていた。
関連論文リスト
- Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。
本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-24T06:53:36Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs [17.691689809414843]
既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。
本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。
PMIは、文書が生成した応答に影響を与える範囲を定量化する。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
論文 参考訳(メタデータ) (2023-05-20T13:34:34Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。