論文の概要: Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for
Positional Discourse Coherence
- arxiv url: http://arxiv.org/abs/2402.10175v1
- Date: Thu, 15 Feb 2024 18:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:37:09.757550
- Title: Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for
Positional Discourse Coherence
- Title(参考訳): アンロック構造測定:位置談話コヒーレンスの自動計測装置PDDの導入
- Authors: Yinhong Liu, Yixuan Su, Ehsan Shareghi and Nigel Collier
- Abstract要約: 本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
- 参考スコア(独自算出の注目度): 42.67608830386934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have shown remarkable performance in
aligning generated text with user intentions across various tasks. When it
comes to long-form text generation, there has been a growing interest in
generation from a discourse coherence perspective. However, existing lexical or
semantic metrics such as BLEU, ROUGE, BertScore cannot effectively capture the
discourse coherence. The development of discourse-specific automatic evaluation
methods for assessing the output of LLMs warrants greater focus and
exploration. In this paper, we present a novel automatic metric designed to
quantify the discourse divergence between two long-form articles. Extensive
experiments on three datasets from representative domains demonstrate that our
metric aligns more closely with human preferences and GPT-4 coherence
evaluation, outperforming existing evaluation methods.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は, 様々なタスクにまたがって生成したテキストとユーザ意図の整合性を示す。
長文テキスト生成に関しては、談話コヒーレンスの観点からの生成への関心が高まっている。
しかし、bleu, rouge, bertscoreのような既存の語彙的あるいは意味的メトリクスは、効果的に談話の一貫性を捉えることができない。
LLMのアウトプットを評価するための談話固有の自動評価手法の開発は、より焦点と探索を確実にする。
本稿では,2つの長文間の談話の発散を定量化する新しい自動計量法を提案する。
代表領域からの3つのデータセットに関する広範囲な実験により、このメトリクスは人間の好みやgpt-4コヒーレンス評価とより密接に一致し、既存の評価方法よりも優れています。
関連論文リスト
- Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs [17.691689809414843]
既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。
本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。
PMIは、文書が生成した応答に影響を与える範囲を定量化する。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
論文 参考訳(メタデータ) (2023-05-20T13:34:34Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Towards Coherent and Consistent Use of Entities in Narrative Generation [5.715103211247915]
物語生成の最終課題に焦点をあて、生成した物語における長距離エンティティの一貫性と一貫性を分析する。
本稿では,エンティティ使用量の観点からモデル性能を測定するための,一連の自動測定指標を提案する。
次に,学習済みのLMを動的エンティティメモリでエンドツーエンドに拡張する手法を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:19:21Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。