論文の概要: Open-Domain Text Evaluation via Meta Distribution Modeling
- arxiv url: http://arxiv.org/abs/2306.11879v1
- Date: Tue, 20 Jun 2023 20:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:44:38.162694
- Title: Open-Domain Text Evaluation via Meta Distribution Modeling
- Title(参考訳): メタ分散モデリングによるオープンドメインテキスト評価
- Authors: Sidi Lu and Asli Celikyilmaz and Tianlu Wang and Nanyun Peng
- Abstract要約: オープンドメイン生成モデルを評価するための新しいアプローチ - Meta-Distribution Methods (MDM) を提案する。
筆者らは,1)メタディストリビューション法を利用したオープンドメインテキスト生成評価のためのMDMについて検討する。1)メタディストリビューション法を用いて,識別器ベースのメトリクスをトレーニングするためのドメイン内負のサンプルを生成するemphDiscriminative MDM,2)2つの言語モデル間の分散の相違を直接利用して評価を行うemphDiscriminative MDMについて検討する。
- 参考スコア(独自算出の注目度): 59.38686738625588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in open-domain text generation models powered by large
pre-trained language models (LLMs) have achieved remarkable performance.
However, evaluating and controlling these models for desired attributes remains
a challenge, as traditional reference-based metrics such as BLEU, ROUGE, and
METEOR are insufficient for open-ended generation tasks. Similarly, while
trainable discriminator-based evaluation metrics show promise, obtaining
high-quality training data is a non-trivial task. In this paper, we introduce a
novel approach to evaluate open-domain generation - the Meta-Distribution
Methods (MDM). Drawing on the correlation between the rising parameter counts
and the improving performance of LLMs, MDM creates a mapping from the contrast
of two probabilistic distributions -- one known to be superior to the other --
to quality measures, which can be viewed as a distribution of distributions
i.e. Meta-Distribution. We investigate MDM for open-domain text generation
evaluation under two paradigms: 1) \emph{Generative} MDM, which leverages the
Meta-Distribution Methods to generate in-domain negative samples for training
discriminator-based metrics; 2) \emph{Discriminative} MDM, which directly uses
distribution discrepancies between two language models for evaluation. Our
experiments on multi-turn dialogue and factuality in abstractive summarization
demonstrate that MDMs correlate better with human judgment than existing
automatic evaluation metrics on both tasks, highlighting the strong performance
and generalizability of such methods.
- Abstract(参考訳): 大規模事前学習言語モデル(LLM)を利用したオープンドメインテキスト生成モデルの最近の進歩は、目覚ましい性能を実現している。
しかし、BLEU、ROUGE、METEORといった従来の基準ベースのメトリクスは、オープンな生成タスクには不十分であるため、これらのモデルの評価と制御は依然として課題である。
同様に、訓練可能な判別子ベースの評価基準は期待できるが、高品質なトレーニングデータを得るのは簡単な作業ではない。
本稿では,オープンドメイン生成(Meta-Distribution Methods, MDM)を評価する新しい手法を提案する。
MDMは、上昇するパラメータ数とLLMの性能改善の相関関係に基づいて、2つの確率分布(それぞれが他方よりも優れていることが知られている)の対比から、メタ分布の分布と見なせる品質指標へのマッピングを生成する。
オープンドメインテキスト生成評価のためのMDMを2つのパラダイムで検討する。
1) メタ分散法を活用し、識別器に基づくメトリクスを訓練するためのドメイン内負のサンプルを生成する \emph{generative} mdm。
2) MDMは2つの言語モデル間の分布の相違を直接用いて評価を行う。
抽象的な要約における多ターン対話と事実性に関する実験により、MDMは既存のタスクの自動評価指標よりも人間の判断と相関し、これらの手法の強い性能と一般化性を強調した。
関連論文リスト
- Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文 参考訳(メタデータ) (2024-11-01T07:18:27Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Mutual Information Divergence: A Unified Metric for Multimodal
Generative Models [19.520177195241704]
我々は,MID(Multual Information Divergence)を用いて作成したCLIP特徴を統一計量として用いた負のガウス交叉情報を提案する。
我々は、テキスト・ツー・イメージ生成や画像キャプションタスクにおいて、慎重に生成された、あるいは人手による判断を用いて、競合する指標と比較した。
提案したMIDは、ベンチマーク、サンプルパーシモニー、および悪用されたCLIPモデルに対するロバスト性によって、競合する手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-05-25T09:34:37Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation [41.360219974284114]
オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
論文 参考訳(メタデータ) (2021-02-02T11:59:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。