論文の概要: Open-Domain Text Evaluation via Meta Distribution Modeling
- arxiv url: http://arxiv.org/abs/2306.11879v1
- Date: Tue, 20 Jun 2023 20:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:44:38.162694
- Title: Open-Domain Text Evaluation via Meta Distribution Modeling
- Title(参考訳): メタ分散モデリングによるオープンドメインテキスト評価
- Authors: Sidi Lu and Asli Celikyilmaz and Tianlu Wang and Nanyun Peng
- Abstract要約: オープンドメイン生成モデルを評価するための新しいアプローチ - Meta-Distribution Methods (MDM) を提案する。
筆者らは,1)メタディストリビューション法を利用したオープンドメインテキスト生成評価のためのMDMについて検討する。1)メタディストリビューション法を用いて,識別器ベースのメトリクスをトレーニングするためのドメイン内負のサンプルを生成するemphDiscriminative MDM,2)2つの言語モデル間の分散の相違を直接利用して評価を行うemphDiscriminative MDMについて検討する。
- 参考スコア(独自算出の注目度): 59.38686738625588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in open-domain text generation models powered by large
pre-trained language models (LLMs) have achieved remarkable performance.
However, evaluating and controlling these models for desired attributes remains
a challenge, as traditional reference-based metrics such as BLEU, ROUGE, and
METEOR are insufficient for open-ended generation tasks. Similarly, while
trainable discriminator-based evaluation metrics show promise, obtaining
high-quality training data is a non-trivial task. In this paper, we introduce a
novel approach to evaluate open-domain generation - the Meta-Distribution
Methods (MDM). Drawing on the correlation between the rising parameter counts
and the improving performance of LLMs, MDM creates a mapping from the contrast
of two probabilistic distributions -- one known to be superior to the other --
to quality measures, which can be viewed as a distribution of distributions
i.e. Meta-Distribution. We investigate MDM for open-domain text generation
evaluation under two paradigms: 1) \emph{Generative} MDM, which leverages the
Meta-Distribution Methods to generate in-domain negative samples for training
discriminator-based metrics; 2) \emph{Discriminative} MDM, which directly uses
distribution discrepancies between two language models for evaluation. Our
experiments on multi-turn dialogue and factuality in abstractive summarization
demonstrate that MDMs correlate better with human judgment than existing
automatic evaluation metrics on both tasks, highlighting the strong performance
and generalizability of such methods.
- Abstract(参考訳): 大規模事前学習言語モデル(LLM)を利用したオープンドメインテキスト生成モデルの最近の進歩は、目覚ましい性能を実現している。
しかし、BLEU、ROUGE、METEORといった従来の基準ベースのメトリクスは、オープンな生成タスクには不十分であるため、これらのモデルの評価と制御は依然として課題である。
同様に、訓練可能な判別子ベースの評価基準は期待できるが、高品質なトレーニングデータを得るのは簡単な作業ではない。
本稿では,オープンドメイン生成(Meta-Distribution Methods, MDM)を評価する新しい手法を提案する。
MDMは、上昇するパラメータ数とLLMの性能改善の相関関係に基づいて、2つの確率分布(それぞれが他方よりも優れていることが知られている)の対比から、メタ分布の分布と見なせる品質指標へのマッピングを生成する。
オープンドメインテキスト生成評価のためのMDMを2つのパラダイムで検討する。
1) メタ分散法を活用し、識別器に基づくメトリクスを訓練するためのドメイン内負のサンプルを生成する \emph{generative} mdm。
2) MDMは2つの言語モデル間の分布の相違を直接用いて評価を行う。
抽象的な要約における多ターン対話と事実性に関する実験により、MDMは既存のタスクの自動評価指標よりも人間の判断と相関し、これらの手法の強い性能と一般化性を強調した。
関連論文リスト
- DualView: Data Attribution from the Dual Perspective [16.083769847895336]
代理モデルに基づくポストホックデータ属性の新しい手法であるDualViewを提案する。
DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間では同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-19T13:13:16Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文 参考訳(メタデータ) (2022-06-01T20:54:41Z) - Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation [41.360219974284114]
オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
論文 参考訳(メタデータ) (2021-02-02T11:59:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。