論文の概要: Open-Domain Text Evaluation via Contrastive Distribution Methods
- arxiv url: http://arxiv.org/abs/2306.11879v3
- Date: Thu, 6 Jun 2024 21:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 21:06:02.213518
- Title: Open-Domain Text Evaluation via Contrastive Distribution Methods
- Title(参考訳): コントラスト分布法によるオープンドメインテキスト評価
- Authors: Sidi Lu, Hongyi Liu, Asli Celikyilmaz, Tianlu Wang, Nanyun Peng,
- Abstract要約: 本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
- 参考スコア(独自算出の注目度): 75.59039812868681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in open-domain text generation, driven by the power of large pre-trained language models (LLMs), have demonstrated remarkable performance. However, assessing these models' generation quality remains a challenge. In this paper, we introduce a novel method for evaluating open-domain text generation called Contrastive Distribution Methods (CDM). Leveraging the connection between increasing model parameters and enhanced LLM performance, CDM creates a mapping from the _contrast_ of two probabilistic distributions -- one known to be superior to the other -- to quality measures. We investigate CDM for open-domain text generation evaluation under two paradigms: 1) _Generative_ CDM, which harnesses the contrast of two language models' distributions to generate synthetic examples for training discriminator-based metrics; 2) _Discriminative_ CDM, which directly uses distribution disparities between two language models for evaluation. Our experiments on coherence evaluation for multi-turn dialogue and commonsense evaluation for controllable generation demonstrate CDM's superior correlate with human judgment than existing automatic evaluation metrics, highlighting the strong performance and generalizability of our approach.
- Abstract(参考訳): 大規模事前学習言語モデル(LLM)のパワーによって駆動されるオープンドメインテキスト生成の最近の進歩は、顕著な性能を示している。
しかし、これらのモデルの生成品質を評価することは依然として困難である。
本稿では,CDM(Contrastive Distribution Methods)と呼ばれるオープンドメインテキスト生成手法を提案する。
モデルパラメータの増加とLLM性能の向上の接続を活用して、CDMは2つの確率分布の_contrast_から品質指標へのマッピングを生成する。
オープンドメインテキスト生成評価のためのCDMを2つのパラダイムで検討する。
1) _Generative_CDMは、2つの言語モデルの分布のコントラストを利用して、識別器ベースのメトリクスを訓練するための合成例を生成する。
2) _Discriminative_CDMは2つの言語モデル間の分布格差を直接利用して評価を行う。
マルチターン対話におけるコヒーレンス評価と,制御可能な生成のためのコモンセンス評価に関する実験は,既存の自動評価指標よりもCDMの方が優れた相関関係を示し,我々のアプローチの強い性能と一般化性を強調した。
関連論文リスト
- Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文 参考訳(メタデータ) (2024-11-01T07:18:27Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Mutual Information Divergence: A Unified Metric for Multimodal
Generative Models [19.520177195241704]
我々は,MID(Multual Information Divergence)を用いて作成したCLIP特徴を統一計量として用いた負のガウス交叉情報を提案する。
我々は、テキスト・ツー・イメージ生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人手による判断を用いて、競合する指標と比較した。
提案したMIDは、ベンチマーク、サンプルパーシモニー、および悪用されたCLIPモデルに対するロバスト性によって、競合する手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-05-25T09:34:37Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation [41.360219974284114]
オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
論文 参考訳(メタデータ) (2021-02-02T11:59:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。